Google Cloudは、BigQueryに近似近傍探索アルゴリズムにおけるGoogleの研究と革新の核心部分をもたらす、TreeAHベクトルインデックスのプレビューを発表しました。この新しいインデックスタイプは、Googleの最も人気のあるサービスの一部を支えるのと同じ基盤技術を使用しており、BigQueryに実装された最初のインデックスであるInverted File Index(IVF)と比較して、特定の状況において大幅なレイテンシーとコストの削減を実現します。

TreeAHインデックスの主な利点の1つは、非対称ハッシュ(TreeAHの「AH」)を使用していることです。これは、埋め込みを圧縮するために積量子化を使用します。CPU向けに最適化された距離計算アルゴリズムと組み合わせることで、TreeAHを使用したベクトル検索は、IVFよりも桁違いに高速かつコスト効率が高くなります。インデックスの生成も、圧縮された埋め込みのみが格納されるため、10倍高速かつ低コストで、メモリフットプリントも小さくなります。

Googleのエンジニアリングチームが実施したベンチマークでは、クエリバッチサイズが大きい場合、TreeAHはIVFよりも大幅に優れていることが示されました。たとえば、10,000個のベクトルを含むクエリバッチの場合、TreeAHはIVFよりも最大23倍高速で、95%も低コストでした。また、TreeAHインデックスのトレーニングは、ほとんどの場合においてIVFよりも大幅に高速かつ低コストでした。

ただし、TreeAHはまだ活発に開発が進められており、現時点ではいくつかの制限事項があることに注意が必要です。たとえば、ベーステーブルは最大2億行までしか含めることができず、TreeAHインデックスでは格納された列と事前フィルタリングはサポートされていません。

全体として、TreeAHはBigQueryにとって貴重な追加機能であり、特定の種類のベクトル検索ワークロードに​​対して、パフォーマンスとコストの大幅なメリットを提供します。これにより、セマンティック検索やLLMベースのRetrieval-Augmented Generation(RAG)など、BigQueryでのベクトル検索のユースケースがさらに広がることが期待されます。