Google Cloudは、「GPUのコストを節約:GKE推論ワークロード向けのよりスマートな自動スケーリング」というブログ記事を公開しました。この記事では、最新のオープンモデルとインフラストラクチャを使用している場合でも、LLMモデルの推論ワークロードの実行にはコストがかかる可能性があることが説明されています。

提案されている解決策の1つは、自動スケーリングです。自動スケーリングは、必要なAIアクセラレータの料金のみを支払いつつ、顧客の需要を確実に満たすことで、コストの最適化に役立ちます。

この記事では、GKEで推論ワークロードの自動スケーリングを設定する方法について、適切な指標を選択することに重点を置いて説明しています。

GPUでの自動スケーリングにGPU使用率、バッチサイズ、キューサイズなど、さまざまな指標を比較することが特に興味深いと思いました。

GPU使用率は、過剰なプロビジョニングにつながる可能性があるため、LLMワークロードの自動スケーリングには効果的な指標ではないことがわかりました。一方、バッチサイズとキューサイズは、推論サーバーがどの程度のトラフィックを処理しているかの直接的な指標を提供するため、より効果的な指標となります。

全体的に、この記事は、GKEでLLM推論ワークロードのコストパフォーマンスを最適化する方法について、役立つ概要を提供しています。GKEでLLM推論ワークロードをデプロイしようとしている人は、この記事を読むことをお勧めします。