Google Cloudは、Cloud HPC ToolkitをCluster Toolkitに名称変更し、AI/MLワークロードに対応するように範囲を拡大したことを発表しました。このツールキットは、Google Cloud上で高性能コンピューティング環境の構築と管理を簡素化することを目的としています。
この変更は、科学技術計算からAI/MLアプリケーションまで、さまざまな分野でCluster Toolkitが広く採用されていることを反映しています。
Cluster Toolkitは、クラスタのセットアップとデプロイを効率化することで、ユーザーがインフラストラクチャの管理ではなく、ワークロードに集中できるようにします。また、Slurm、GKE、Batchなどの複数のスケジューラをサポートすることで、多様なコンピューティングタスクに柔軟に対応します。
Cluster Toolkitの主な利点は以下のとおりです。
* クラスタの容易なデプロイと管理
* HPCおよびAI/MLワークロードのためのクイックスタートオプション
* Google Cloudのベストプラクティスの統合
* 定期的なアップデートと新機能
* オープンソースへのアクセス
Cluster Toolkitの新機能には、以下のようなものがあります。
* A3 Mega Blueprint: 大規模言語モデル(LLM)やその他のAI/MLワークロードのトレーニングに対応したA3 Mega VMのクラスタをデプロイするため。
* HPC VMイメージ: 一般的なHPCツールやライブラリをプリインストールしたVMイメージ。
* Slurm-gcp v6: Google Cloud上でSlurmワークロードを実行するためのシームレスなエクスペリエンスを提供するSlurm-gcpソリューションの最新バージョン。
混乱を避けるため、ローカルクローンとコマンド名は更新することを強くお勧めします。
Cluster Toolkitを使い始めるには、GitHubリポジトリで公開されている使いやすいHPCおよびAI/MLブループリントのいずれかを選択し、それを使用してクラスタをセットアップします。ドキュメント、クイックスタート、ビデオなど、使い始めるのに役立つさまざまなリソースも用意されています。