谷歌推出 TurboQuant 压缩技术,有望在低性能硬件上以更快的推理速度提供相同的准确率
点击查看原文>
摘要
谷歌推出 TurboQuant 压缩技术,有望在低性能硬件上以更快的推理速度提供相同的准确率。
正文
谷歌研究院发布了 TurboQuant,这是一种新型量化算法,可将大型语言模型的键值缓存压缩至原来的六分之一。该算法采用 3.5 位压缩,精度损失近乎为零,而且不需要重新训练。借助这个算法,开发者在运行大规模上下文窗口时所需的硬件配置会比以前低许多。社区的早期基准测试表明,该算法可以显著地提升效率。
虽然量化理由看起来很合理,但难点在于:在编码位数量一定的情况下,在处理压缩数据时如何保持与推理相关的计算(例如内积、余弦相似度、距离)精度。
研究团队声称,TurboQuant 能够将 KV 缓存压缩至每个值仅需 3.5 位,而且精度损失几乎为零。在 LongBench 和 Needle in a Haystack 等标准的基准测试中,3.5 位的 TurboQuant 实现方案在 Gemma 和 Mistral 模型上的性能表现与完整的 16 位精度方案不相上下。
TurboQuant 采用了一种两步法。第一步是对数据向量进行旋转(随机 Hadamard 变换)。这可以保持关键欧几里德属性(如距离),并将数值分散开来,消除会导致低位量化困难的异常值密集型坐标分布。变换之后,向量坐标遵循贝塔分布,这更有利于实现低失真压缩。第二部是应用一项已有十年历史的技术—— Quantized Johnson-Lindenstrauss(QJL)变换,来消除第一步产生的偏置。论文指出,经过 QJL 变换后,量化向量之间的内积成为未量化向量的无偏、高效且精确的估计量,从而有效地保持了推理精度。
从社区的早期分析来看,该算法似乎带来了显著的改进,尽管幅度比论文中报告的要小一些。这篇“两分钟论文”的分析表明,在内存占用和处理速度方面,“真实世界”的改进幅度为 30% 至 40% :
根据这些结果,我们不能得出“每台 AI 机器所需的内存突然减少到原来的六分之一”这样的结论。确实不能,这种说法有些理想化,仅适用于某些极端情况。就像你看到的手机电池或电动汽车续航里程的官方测试数据,那些测试条件往往有些理想化,情况就是这样。
所以要警惕媒体的炒作。[……] 我们要等待更多的数据和实验结果分析,从而获取最优质的信息。
但这依然很棒。真的非常棒!它能为大部分需要处理超长上下文的 AI 系统用户带来帮助。当你把一份巨大的 PDF 文档、一部电影,或者一个庞大的代码库扔给 AI 让它分析时,没错,你将能够以更低的成本和明显更少的内存占用来完成这些任务。通常能节省几 GB 的内存。我认为这绝对是个令人振奋的好消息。
在大语言模型(LLM)推理中,对需要反复执行的计算进行缓存是一项基础优化。这在自回归生成过程中尤为关键,因为每个新生成的 Token 都会利用之前所有 Token 生成过程中已计算出的数据。通过缓存这些键值张量(即 KV 缓存),系统可以避免对整个序列历史进行冗余且计算成本高昂的遍历。
不过,缓存带来的效率提升也伴随着巨大的内存开销,而且该开销会随着 Token 序列长度的增加而呈线性增长。对于采用长上下文窗口设计的 LLM 而言,缓存所占用的庞大 VRAM 空间最终会超过模型权重本身所需的内存。
例如,据 Amazon AI 研究员 Darshan Fofadiya 的介绍,运行一个上下文窗口为 100 万 Token 的 Llama 70B 模型,仅 KV 缓存可能就需要约 328GB 的显存。相比之下,以 BF16 格式存储 70B 模型的权重只需 140GB,因此,缓存已经成为模型部署的主要瓶颈,使工程师不得不采用成本高昂许多的 GPU 配置。如果从 16 位压缩至 3.5 位,那么缓存所需的空间将缩减至 72GB,这样单张 H100(80GB HBM)显卡便能够容纳。
在推理解码阶段,提示词中的某些输入 Token 会生成模值可达数百或数千的 KV 向量,而绝大多数其他 Token 的值则接近 0-1。例如在 LLaMA-2-7B 中,前 1% 的 KV 缓存值其数值可能比中位数大 10 到 100 倍。在不采用专门技术的情况下,这种巨大的分布偏差使得线性 4 位量化无法进行,因为异常值会拉伸量化网格,破坏普通 Token 的精度。
在批次相对比较小时,基于大型语言模型(LLM)的生成式推理受限于内存。由于内存速度的发展速度慢于计算速度,消除内存瓶颈(即所谓的“内存墙”)成了实现高效推理的关键。对于短上下文,权重矩阵是内存消耗的主要来源;对于长上下文,键值对(KV)缓存则成了主要来源。因此,对于加速推理,针对模型权重和键值对缓存的量化技术至关重要,并且已成为一个重要的研究课题。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2026/04/turboquant-compression-kv-cache/
本文来源:InfoQ