Google Cloudは、Google Kubernetes Engine(GKE)が最大65,000ノードをサポートするようになったことを発表しました。これにより、数兆パラメーター規模の巨大なAIモデルにも対応できるようになります。生成AIが進化するにつれて、これらのモデルをトレーニングするための膨大な計算能力の必要性が高まっています。GKEは、他の2大パブリッククラウドプロバイダーよりも10倍以上大きな規模を提供し、モデルのトレーニング時間を短縮したり、モデルを数兆のパラメーターに拡張したりできます。この拡張により、単一クラスタで5つのジョブを実行できるようになり、それぞれがLLMの最大トレーニングジョブに関するGoogle Cloudの以前の世界記録の規模と一致します。AIの安全性と研究を行う企業であるAnthropicのような顧客は、これらの開発を歓迎しています。技術的には、GKEはオープンソースのetcd(分散キーバリューストア)から、Googleの分散データベースであるSpannerに基づく、より堅牢な新しいキーバリューストアに移行しています。この変更により、GKEユーザーの信頼性が新たなレベルに向上し、クラスタ操作のレイテンシが改善されます。さらに、Kubernetesコントロールプレーンを管理するGKEインフラストラクチャの大幅な見直しのおかげで、GKEは飛躍的にスケーリングが速くなりました。Google Cloudはオープンソースへのコミットメントも維持しており、このような規模に必要なすべての最適化と改善がコアオープンソースKubernetesの一部であることを保証しています。
GKE、数兆パラメーターのAIモデルに対応するため65,000ノードにスケール
Google Cloud