AI 资讯

谷歌推出 TurboQuant 压缩技术，有望在低性能硬件上以更快的推理速度提供相同的准确率

点击查看原文>

AI_light

21 Apr 2026 • 5 min read

摘要

谷歌推出 TurboQuant 压缩技术，有望在低性能硬件上以更快的推理速度提供相同的准确率。

正文

谷歌研究院发布了 TurboQuant，这是一种新型量化算法，可将大型语言模型的键值缓存压缩至原来的六分之一。该算法采用 3.5 位压缩，精度损失近乎为零，而且不需要重新训练。借助这个算法，开发者在运行大规模上下文窗口时所需的硬件配置会比以前低许多。社区的早期基准测试表明，该算法可以显著地提升效率。

虽然量化理由看起来很合理，但难点在于：在编码位数量一定的情况下，在处理压缩数据时如何保持与推理相关的计算（例如内积、余弦相似度、距离）精度。

研究团队声称，TurboQuant 能够将 KV 缓存压缩至每个值仅需 3.5 位，而且精度损失几乎为零。在 LongBench 和 Needle in a Haystack 等标准的基准测试中，3.5 位的 TurboQuant 实现方案在 Gemma 和 Mistral 模型上的性能表现与完整的 16 位精度方案不相上下。

TurboQuant 采用了一种两步法。第一步是对数据向量进行旋转（随机 Hadamard 变换）。这可以保持关键欧几里德属性（如距离），并将数值分散开来，消除会导致低位量化困难的异常值密集型坐标分布。变换之后，向量坐标遵循贝塔分布，这更有利于实现低失真压缩。第二部是应用一项已有十年历史的技术—— Quantized Johnson-Lindenstrauss（QJL）变换，来消除第一步产生的偏置。论文指出，经过 QJL 变换后，量化向量之间的内积成为未量化向量的无偏、高效且精确的估计量，从而有效地保持了推理精度。

从社区的早期分析来看，该算法似乎带来了显著的改进，尽管幅度比论文中报告的要小一些。这篇“两分钟论文”的分析表明，在内存占用和处理速度方面，“真实世界”的改进幅度为 30% 至 40% ：

根据这些结果，我们不能得出“每台 AI 机器所需的内存突然减少到原来的六分之一”这样的结论。确实不能，这种说法有些理想化，仅适用于某些极端情况。就像你看到的手机电池或电动汽车续航里程的官方测试数据，那些测试条件往往有些理想化，情况就是这样。
所以要警惕媒体的炒作。[……] 我们要等待更多的数据和实验结果分析，从而获取最优质的信息。
但这依然很棒。真的非常棒！它能为大部分需要处理超长上下文的 AI 系统用户带来帮助。当你把一份巨大的 PDF 文档、一部电影，或者一个庞大的代码库扔给 AI 让它分析时，没错，你将能够以更低的成本和明显更少的内存占用来完成这些任务。通常能节省几 GB 的内存。我认为这绝对是个令人振奋的好消息。

在大语言模型（LLM）推理中，对需要反复执行的计算进行缓存是一项基础优化。这在自回归生成过程中尤为关键，因为每个新生成的 Token 都会利用之前所有 Token 生成过程中已计算出的数据。通过缓存这些键值张量（即 KV 缓存），系统可以避免对整个序列历史进行冗余且计算成本高昂的遍历。

不过，缓存带来的效率提升也伴随着巨大的内存开销，而且该开销会随着 Token 序列长度的增加而呈线性增长。对于采用长上下文窗口设计的 LLM 而言，缓存所占用的庞大 VRAM 空间最终会超过模型权重本身所需的内存。

例如，据 Amazon AI 研究员 Darshan Fofadiya 的介绍，运行一个上下文窗口为 100 万 Token 的 Llama 70B 模型，仅 KV 缓存可能就需要约 328GB 的显存。相比之下，以 BF16 格式存储 70B 模型的权重只需 140GB，因此，缓存已经成为模型部署的主要瓶颈，使工程师不得不采用成本高昂许多的 GPU 配置。如果从 16 位压缩至 3.5 位，那么缓存所需的空间将缩减至 72GB，这样单张 H100（80GB HBM）显卡便能够容纳。

在推理解码阶段，提示词中的某些输入 Token 会生成模值可达数百或数千的 KV 向量，而绝大多数其他 Token 的值则接近 0-1。例如在 LLaMA-2-7B 中，前 1% 的 KV 缓存值其数值可能比中位数大 10 到 100 倍。在不采用专门技术的情况下，这种巨大的分布偏差使得线性 4 位量化无法进行，因为异常值会拉伸量化网格，破坏普通 Token 的精度。

在批次相对比较小时，基于大型语言模型（LLM）的生成式推理受限于内存。由于内存速度的发展速度慢于计算速度，消除内存瓶颈（即所谓的“内存墙”）成了实现高效推理的关键。对于短上下文，权重矩阵是内存消耗的主要来源；对于长上下文，键值对（KV）缓存则成了主要来源。因此，对于加速推理，针对模型权重和键值对缓存的量化技术至关重要，并且已成为一个重要的研究课题。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://www.infoq.com/news/2026/04/turboquant-compression-kv-cache/

本文来源：InfoQ

谷歌推出 TurboQuant 压缩技术，有望在低性能硬件上以更快的推理速度提供相同的准确率

AI_light

摘要

正文

Sign up for more like this.

谷歌发布Gemma 4，专注于本地优先、设备级的AI推理

新生论坛@2050@2026：500+脑暴席卷云栖，年青就要最大声分享！

Lyft使用AI和人机协同扩展了全球范围内的本地化能力