NVIDIA GPU を使用して Cloud Run で AI 推論アプリケーションを実行する

Google Cloudは、Cloud RunでNVIDIA L4 GPUのサポートを追加することを発表しました。現在プレビュー段階です。これにより、Cloud Run開発者は、次のような多くの新しいユースケースに対応できるようになります。

* GoogleのオープンなGemma（2B/7B）モデルやMetaのLlama 3（8B）などの軽量なオープンモデルを使用してリアルタイムの推論を実行し、カスタムチャットボットの構築やオンザフライでのドキュメント要約を行うことができます。また、急増するユーザートラフィックを処理するためにスケーリングすることもできます。

* 企業ブランドに合わせて調整された画像生成など、カスタムのファインチューニングされた生成AIモデルを提供し、誰も使用していないときはスケールダウンしてコストを最適化します。

* オンデマンド画像認識、ビデオトランスコーディングとストリーミング、3Dレンダリングなど、コンピューティング負荷の高いCloud Runサービスを高速化します。

完全に管理されたプラットフォームとして、Cloud Runは、Googleのスケーラブルなインフラストラクチャ上でコードを直接実行できるようにし、コンテナの柔軟性とサーバーレスのシンプルさを組み合わせて、生産性の向上を支援します。Cloud Runを使用すると、フロントエンドサービスとバックエンドサービスの実行、バッチジョブの処理、Webサイトとアプリケーションのデプロイ、キュー処理ワークロードの処理を、基盤となるインフラストラクチャを管理することなく実行できます。

同時に、AI推論を実行する多くのワークロード、特にリアルタイム処理を必要とするアプリケーションは、応答性の高いユーザーエクスペリエンスを提供するためにGPUアクセラレーションを必要とします。NVIDIA GPUのサポートにより、選択したLLMを使用して、オンデマンドでオンラインAI推論を数秒で行うことができます。

初期の顧客は、Cloud RunとNVIDIA GPUの組み合わせに興奮しています。

「Cloud RunのGPUサポートは、当社のリアルタイム推論アプリケーションにとって画期的なものでした。コールドスタートの待ち時間が短いのは印象的で、モデルがほぼ瞬時に予測を提供できるようになりました。これは、時間に敏感なカスタマーエクスペリエンスにとって非常に重要です。さらに、Cloud Run GPUは、さまざまな負荷の下で一貫して最小限のサービングレイテンシを維持するため、生成AIアプリケーションは常に応答性と信頼性に優れています。また、アクティブでない期間中は、簡単にゼロにスケールダウンできます。全体的に見て、Cloud Run GPUは、エンドユーザーに高速で正確、かつ効率的な結果を提供する当社の能力を大幅に向上させてくれました。」 - L'Oréal、AI責任者 - グローバルビューティーテック、Thomas MENARD氏

全体的に見て、Cloud RunへのNVIDIA GPUサポートの追加は、リアルタイムAI推論アプリケーションを構築しようとしている開発者にとって重要な開発です。この機能により、開発者はNVIDIA GPUのパワーを活用しながら、Cloud Runの使いやすさとスケーラビリティを享受することができます。

NVIDIA GPUを搭載したCloud Runの使用を開始するには、g.co/cloudrun/gpuでプレビュープログラムにサインアップしてください。

NVIDIA GPU を使用して Cloud Run で AI 推論アプリケーションを実行する

Recommends