新技术将LLM内存占用降低50倍且无损性能

麻省理工学院的研究人员取得了一项突破，可能大幅降低大语言模型在企业环境中的成本并扩大其应用范围。他们开发了一种新颖的键值缓存压缩技术，可将LLM的内存占用减少高达50倍而不牺牲准确性。KV缓存是一个关键的内存组件，在文本生成过程中存储临时数据