谷歌TurboQuant将AI内存成本降低50%

谷歌的新TurboQuant算法据称能为运行大语言模型带来显著的性能和成本改进。根据细节，这种内存压缩技术可以将AI内存访问速度提升八倍，并将相关成本降低50%或更多。TurboQuant专门针对“键值缓存瓶颈”，这是当LLM处理