AI Infrastructure2026-02-15VentureBeat

英伟达新技术将大语言模型推理成本降低8倍

英伟达研究人员公布了一项名为动态内存稀疏化(DMS)的新技术,可显著降低运行大语言模型的成本。该方法专注于压缩键值(KV)缓存——这是大语言模型推理过程中生成的一个内存密集型组件,用于存储先前令牌的注意力信息。DMS智能地识别并剪枝推理过程中不太关键的KV缓存条目,从而将内存占用和成本降低多达八倍,同时几乎不影响模型输出的质量。

相关资讯

更多 AI 资讯

AIStart.ai · 您的个性化 AI 起始页