AI 资讯

Kimi新论文：把KVCache玩成新商业模式了

超长上下文福音

AI_light

19 Apr 2026 • 13 min read

Kimi新论文：把KVCache玩成新商业模式了 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Kimi新论文：把KVCache玩成新商业模式了

衡宇

2026-04-19

18:19:45

来源：

量子位

超长上下文福音

衡宇发自凹非寺

量子位 | 公众号 QbitAI

把长上下文做到极致的Kimi又发新成果！

这一次瞄准的是大模型推理架构跨机房调度沉疴。

他们提出了一套全新范式，

Prefill-as-a-Service

（简称PrFaaS）

，预填充即服务。

其核心突破是让KV Cache可以跨数据中心传输，把Prefill和Decode彻底解耦到不同的异构集群。

有了PrFaaS，

Prefill和Decode之间可以跨越城市、跨地域调度。

而且，面对长文本场景，上下文越长，它的优势越明显。

可以说是

长上下文场景天生圣体

（doge）！

这项工作

由月之暗面和清华大学清华大学郑纬民院士、武永卫教授团队联合推出

。

在内部1T参数混合注意力模型的实测验证下，这套PrFaaS-PD架构交出了极具说服力的数据。

相比传统同构PD部署，吞吐量提升54%，P90延迟大幅降低64%；即便对比未做智能调度的朴素异构方案，吞吐量依然提升32%。

而跨数据中心传输仅占用13Gbps带宽，远低于100Gbps的以太网上限，也就是说

普通商用以太网即可稳定承载

。

这背后是怎么做到的？

为什么必须跨数据中心？

Prefill-Decode分离是大模型推理服务的行业标配。

但这让

KV Cache传输高度依赖RDMA网络，牢牢地把Prefill和Decode两个阶段强行绑定在单一集群内

。

解绑单飞不了，压根儿解绑单飞不了。

于是，如果最适合做Prefill的算力芯片和最适合做Decode的带宽芯片不在一个机房，是异地恋的状态，就根本没办法一起用。

但强行把异构硬件塞到一起，必然导致资源配比完全僵死。

大家都知道流量是波动的。配比如果定死，很容易出现一边忙到飞起，一边闲成狗的情况出现，算力利用率大打折扣。

导致这个情况的“病灶”，就是就是

KV Cache的带宽墙

。

研究团队在这项工作中给出了量化数据。

以MiniMax-M2.5这款典型的dense GQA架构模型为例——

在32K上下文时，单实例产生KV Cache的速率达到60Gbps，而跨数据中心以太网带宽通常只有10-100Gbps，相当于后者试图用家用小水管来扛消防水带的流量，根本带不动。

因此，为了保证推理不被卡住、不出现等待延迟，Prefill与Decode 之间必须使用高带宽、低时延的RDMA网络进行通信。

这就是传统PD分离架构只能被限制在RDMA域内的根本原因。

不过，

新一代混合注意力架构带来了转机

。

近期，Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齐刷刷用上了

线性注意力+全注意力

混合架构。

在这种混合架构下，线性层只产出固定大小的循环状态，不随上下文变长而膨胀；只有全注意力层才会生成和长度相关的KV Cache。

它带来了喜人的效果。在32K上下文下：

MiMo-V2-Flash的KV吞吐量仅4.66Gbps，比起MiniMax-M2.5来降了13倍；

Qwen3.5-397B的8.25Gbps相比同规dense模型的33.35Gbps，降低4倍；

Ring-2.5-1T的MLA压缩叠加7:1混合比例，整体KV内存节省约36倍。

“线性注意力+全注意力”混合架构把KV吞吐量从RDMA级别降到了以太网级别。

跨数据中心做PD分离，终于从不可能变成了可能。

推出破局方案“PrFaaS ”

光有模型架构还不够，想真正落地跨数据中心推理，还需要一套能把 “有可能” 变成 “能用” 的系统架构。

针对这一点，清华联合月之暗面团队推出了

PrFaas

。

PrFaaS即Prefill-as-a-Service，翻译过来叫预填充即服务。

它是一种跨数据中心的大模型推理服务架构，核心是将长上下文请求的Prefill计算，选择性卸载到独立的、算力密集型的专用集群完成，再把生成的KV Cache通过普通以太网传输到本地PD集群执行Decode。

具体来说，

系统会设一个动态长度阈值t。

如果是短请求（未缓存长度≤t），就老老实实留在本地PD集群跑完整个流程。

只有长请求（未缓存长度 > t）才会被送到专门的PrFaaS集群做Prefill，生成的KV Cache再通过以太网传回本地做 Decode。

值得注意的是，阈值t会跟着实时带宽、请求长度分布自动调整。

整套架构由三大子系统紧密配合。

第一，计算层。

PrFaaS集群上，H200这类高端芯片，只啃长上下文Prefill硬骨头；而本地PD集群去用H20这类带宽优化芯片，专心做Decode、处理短请求。

术业有专攻，两类硬件各自独立扩容，不再强行配对。

第二，网络层。

集群内部用RDMA保证低延迟，跨数据中心就用VPC或专线，走通用以太网传KV Cache，以此大幅降低部署难度和成本。

研究人员表示实测环境是100Gbps VPC。这虽然远低于RDMA的800Gbps，但足够用了。

第三，存储层

，这也是最有意思的子系统。

团队设计了一个混合前缀缓存池，把KV Cache分成两类。

一类是prefix-cache块，另一类是transfer-cache块。

prefix-cache块在集群内复用，必须块对齐才能命中；transfer-cache块则专门用于跨集群传输，传完即弃，不占用长期存储。

为什么这样设计？

因为混合模型的KV Cache是heterogeneous的。

线性层的recurrent state是request-level，大小固定，必须完全匹配才能复用；全注意力层的KV Cache是block-level，支持部分前缀匹配。

而统一池化管理，既能高效复用本地缓存，又能灵活支持跨集群传输。

此外，

为了稳住生产环境，PrFaaS还设计了双时间尺度调度算法

。

简单理解一下，就是短期毫秒级做带宽+缓存感知路由，长期分钟级做流量驱动的资源重分配。

短期调度监控PrFaaS出口利用率，接近阈值时提高t、减少跨中心流量。

对于带前缀缓存的请求，调度器会权衡缓存命中位置和带宽可用性。如果带宽紧张，优先用本地缓存；如果带宽充裕，可以从远程集群拉缓存来减少重复计算。

长期调度观察各阶段的队列深度和利用率。

当Prefill成为瓶颈时，把PD集群的节点从Decode角色转为Prefill角色；当Decode成为瓶颈时，反向调整。

这种动态重分配让系统能适应流量模式的缓慢变化。

理论可行，同时工程可用

为了验证跨数据中心 KV Cache传输与PrFaaS架构的真实落地能力，研究团队基于生产级配置开展了严格的对照实验，完整还原了异构硬件、跨域网络与真实长上下文流量的组合场景，让方案从架构设想变为可量化、可复用的工程实践。

实验选用团队内部自研的1T参数混合注意力架构模型，整体设计对齐Kimi Linear架构，采用线性注意力层与全注意力层7:1的混合配比。

此外，在保持模型能力的同时实现KV Cache的高效压缩，为跨数据中心传输奠定基础。

硬件层面

，团队采用了典型异构组合。

专门负责长上下文Prefill的PrFaaS集群配备32张H200，凭借更强算力吞吐处理高负载计算；本地PD集群配备64张H20 GPU，面向Decode阶段优化内存带宽，兼顾短请求Prefill与全流程推理。

网络层面

，团队采用跨数据中心通用方案，通过VPC对等连接提供约100Gbps的跨集群带宽，完全贴合主流云厂商与多数据中心部署环境。

实验workload采用截断对数正态分布的请求长度，均值约27K tokens，高度贴近线上长上下文服务的真实流量特征。

实验结果证明了PrFaaS-PD架构的工程有效性。

在核心性能指标上

，相比同等硬件规模的同构PD集群，PrFaaS-PD架构将服务吞吐量提升54%；相比未做智能调度的简单异构部署，吞吐量仍有32%的提升。

在端到端延迟上

，PrFaaS-PD架构带来的优化效果更为显著，P90 TTFT（首词时延）降低幅度达64%，长请求不再与短请求争抢本地Prefill资源，排队阻塞与计算拥堵问题大幅缓解。

更关键的是工程可行性指标。

PrFaaS集群的平均出口带宽仅13Gbps，在100Gbps的跨集群链路中占比仅13%，留有充足的带宽冗余，完全不会出现拥塞与链路抢占。

实验结果证实，在混合模型与PrFaaS调度的协同下，KV Cache传输可以不再依赖 RDMA，普通商用以太网即可稳定支撑。

论文团队成员介绍

这项研究

由月之暗面与清华大学联合完成

。

作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang（通讯作者）。

其中，研究团队成员中来自月之暗面的，有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

一作

Ruoyu Qin（秦若愚）

，是清华大学计算机科学与技术系MADSys实验室在读博士生，师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang（章明星），后者长期面向KV Cache架构与分布式推理。

同时，Qin也在月之暗面工作，还是Mooncake分布式推理系统的一作。

月之暗面工程副总裁

Xinran Xu（许欣然）

也在作者名单之列。

量子位发现，作者名单中月之暗面的五位，同样也是Mooncake架构的核心贡献者。

除上述的教授章明星外，研究团队中来自清华大学的作者还有Yongwei Wu和Weimin Zheng。

Weimin Zheng（郑纬民）

，中国工程院院士，清华大学计算机系教授，长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。

Yongwei Wu（武永卫）

是清华大学计算机科学与技术系副主任、教授、博士生导师，此外还担任AI Infra公司趋境科技的首席科学家。

此前，月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目，趋境科技是该项目核心共建单位与深度贡献者。

参考链接：

[1]

https://arxiv.org/abs/2604.15039

[2]

https://madsys.cs.tsinghua.edu.cn/people/

KVCache

月之暗面

清华大学

衡宇

大模型架构的下半场

2026-04-19

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决

2026-04-19

黄仁勋都被问毛了：顶级AI厂商在去CUDA？“你的前提就是错的”

2026-04-19

Claude神之bug：给自己下指令，还诬赖用户？？Hacker News炸了

2026-04-10

扫码分享至朋友圈

Kimi新论文：把KVCache玩成新商业模式了

AI_light

Sign up for more like this.

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决

马斯克来抖音卖老干妈了？？

高德发布全球首个面向AGI的全栈具身技术体系“ABot”：15项SOTA，构建持续进化的具身智能闭环