英伟达新技术将大语言模型推理成本降低8倍

英伟达研究人员公布了一项名为动态内存稀疏化（DMS）的新技术，可显著降低运行大语言模型的成本。该方法专注于压缩键值（KV）缓存——这是大语言模型推理过程中生成的一个内存密集型组件，用于存储先前令牌的注意力信息。DMS智能地识别并剪枝推理过程中不太关键的KV缓存条目，从而将内存占用和成本降低多达八倍，同时几乎不影响模型输出的质量。