新技術、精度を損なわずにLLMのメモリ使用量を50分の1に削減

MITの研究者らは、企業環境における大規模言語モデルのコストを劇的に削減し、その普及を拡大する可能性のあるブレークスルーを達成しました。彼らは、大規模言語モデルのメモリ使用量を精度を犠牲にすることなく最大50分の1に削減できる、新しいKey-Value（KV）キャッシュ圧縮技術を開発しました。KVキャッシュは、テキスト生成中に一時データを保存する重要なメモリコンポーネントであり、LLMの展開における主要なボトルネックとなっています。