[ITmedia News] Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

Posted on 2026年3月27日

Googleは、LLMのメモリ消費量を6分の1に削減する新技術「TurboQuant」を発表した。PolarQuantとQJLを組み合わせ、精度を維持したままKVキャッシュを3ビットまで圧縮する。NVIDIAのH100での計算速度は最大8倍に向上。Gemini等の大規模モデルやベクトル検索の劇的な高速化が期待される。

明日ダイアリー

[ITmedia News] Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表