Google Cloudは、Cloud HPC ToolkitをCluster Toolkitに名称変更し、AI/MLワークロードに対応するように範囲を拡大したことを発表しました。このツールキットは、Google Cloud上で高性能コンピューティング環境の構築と管理を簡素化することを目的としています。

この変更は、科学技術計算からAI/MLアプリケーションまで、さまざまな分野でCluster Toolkitが広く採用されていることを反映しています。

Cluster Toolkitは、クラスタのセットアップとデプロイを効率化することで、ユーザーがインフラストラクチャの管理ではなく、ワークロードに集中できるようにします。また、Slurm、GKE、Batchなどの複数のスケジューラをサポートすることで、多様なコンピューティングタスクに柔軟に対応します。

Cluster Toolkitの主な利点は以下のとおりです。

* クラスタの容易なデプロイと管理

* HPCおよびAI/MLワークロードのためのクイックスタートオプション

* Google Cloudのベストプラクティスの統合

* 定期的なアップデートと新機能

* オープンソースへのアクセス

Cluster Toolkitの新機能には、以下のようなものがあります。

* A3 Mega Blueprint: 大規模言語モデル(LLM)やその他のAI/MLワークロードのトレーニングに対応したA3 Mega VMのクラスタをデプロイするため。

* HPC VMイメージ: 一般的なHPCツールやライブラリをプリインストールしたVMイメージ。

* Slurm-gcp v6: Google Cloud上でSlurmワークロードを実行するためのシームレスなエクスペリエンスを提供するSlurm-gcpソリューションの最新バージョン。

混乱を避けるため、ローカルクローンとコマンド名は更新することを強くお勧めします。

Cluster Toolkitを使い始めるには、GitHubリポジトリで公開されている使いやすいHPCおよびAI/MLブループリントのいずれかを選択し、それを使用してクラスタをセットアップします。ドキュメント、クイックスタート、ビデオなど、使い始めるのに役立つさまざまなリソースも用意されています。