Google Cloudは、GPUを使用してCloud RunにMeta Llama 3.2-1B-Instructモデルをデプロイする方法を説明したブログ記事を公開しました。この記事では、オープンソースの大規模言語モデル(LLM)をデプロイするためにCloud Run GPUを活用する方法について、ステップバイステップの説明を提供しています。また、Text Generation Inference(TGI)Dockerイメージを使用したローカルモデルテストによって開発プロセスを効率化するためのベストプラクティスも紹介しており、トラブルシューティングを容易にし、生産性を向上させることができます。Cloud Run GPUを使用することで、開発者はCloud RunのCPUとメモリで気に入っているオンデマンドの可用性と簡単なスケーラビリティに加えて、NVIDIA GPUの威力を活用できます。アプリケーションがアイドル状態のときは、GPU搭載インスタンスは自動的にゼロにスケールダウンされ、コストが最適化されます。この記事では、Cloud Storage FUSEを使用してコールドスタートを改善する方法についてもヒントを提供しています。Cloud Storage FUSEを使用すると、開発者はGoogle Cloud Storageバケットをファイルシステムとしてマウントできるため、コールドスタートの時間を大幅に短縮できます。
Google Cloud Run GPU で Llama 3.2-1B-Instruct モデルをデプロイする方法
Google Cloud