Google Cloudは、コスト削減と効率性向上を目的とした、ロードバランシングによるカスタムソース読み取りを可能にするDataflowの新機能を発表しました。これは、特にレイテンシが厳密に監視されるストリーミング環境において、ワークロードのスケーリングという課題に対する待望のソリューションとなります。

多くの最新オートチューニング戦略は、処理のボトルネックとなり、バックログを作成するホットキーやホットワーカーに対処するのに苦労しており、データの鮮度に影響を与えています。例えば、Apache Kafkaのようなストリーミング環境では、パイプラインにホットスポットが発生する可能性があります。オートスケーラーは、事後に追加の計算ユニットでこれを補おうとするかもしれませんが、これはコストがかかるだけでなく、低速でもあります。オートスケーラーは、蓄積されたメッセージのバックログが発生した後 erst に反応し、新しいワーカーをスピンアップする際にオーバーヘッドが発生します。

新しいロードバランシング機能は、ワークロードをより適切に分散し、過負荷のワーカーを積極的に軽減することで機能します。これにより、パイプラインはより少ないリソースとより低いレイテンシでより多くのデータをプッシュできます。Dataflowのトップ顧客からの実際のユースケースは、運用コストを削減し、パイプラインのパフォーマンスを向上させる上で、この機能がいかに効果的であるかを示しています。

例えば、あるお客様は、ワーカーのスケーリングイベントを75%削減することができ、その結果、Google Compute Engineのコストを1日あたり64%削減し、バックログを約1分から約10秒に短縮することができました。

このロードバランシング機能は、すべてのリージョンのすべてのDataflowのお客様に対してデフォルトで有効になっているため、追加設定なしですぐに使用できます。

結論として、Dataflowにロードバランシングによるカスタムソース読み取りが導入されたことは、パイプラインの効率を向上させ、コストを削減するための重要な一歩であり、特に速度と効率が最優先されるストリーミング環境において重要です。