Kimi新论文:把KVCache玩成新商业模式了
超长上下文福音
Kimi新论文:把KVCache玩成新商业模式了 – 量子位
首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
Kimi新论文:把KVCache玩成新商业模式了
衡宇
2026-04-19
18:19:45
来源:
量子位
超长上下文福音
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
把长上下文做到极致的Kimi又发新成果!
这一次瞄准的是大模型推理架构跨机房调度沉疴。
他们提出了一套全新范式,
Prefill-as-a-Service
(简称PrFaaS)
,预填充即服务。
其核心突破是让KV Cache可以跨数据中心传输,把Prefill和Decode彻底解耦到不同的异构集群。
有了PrFaaS,
Prefill和Decode之间可以跨越城市、跨地域调度。
而且,面对长文本场景,上下文越长,它的优势越明显。
可以说是
长上下文场景天生圣体
(doge)!
这项工作
由月之暗面和清华大学清华大学郑纬民院士、武永卫教授团队联合推出
。
在内部1T参数混合注意力模型的实测验证下,这套PrFaaS-PD架构交出了极具说服力的数据。
相比传统同构PD部署,吞吐量提升54%,P90延迟大幅降低64%;即便对比未做智能调度的朴素异构方案,吞吐量依然提升32%。
而跨数据中心传输仅占用13Gbps带宽,远低于100Gbps的以太网上限,也就是说
普通商用以太网即可稳定承载
。
这背后是怎么做到的?
为什么必须跨数据中心?
Prefill-Decode分离是大模型推理服务的行业标配。
但这让
KV Cache传输高度依赖RDMA网络,牢牢地把Prefill和Decode两个阶段强行绑定在单一集群内
。
解绑单飞不了,压根儿解绑单飞不了。
于是,如果最适合做Prefill的算力芯片和最适合做Decode的带宽芯片不在一个机房,是异地恋的状态,就根本没办法一起用。
但强行把异构硬件塞到一起,必然导致资源配比完全僵死。
大家都知道流量是波动的。配比如果定死,很容易出现一边忙到飞起,一边闲成狗的情况出现,算力利用率大打折扣。
导致这个情况的“病灶”,就是就是
KV Cache的带宽墙
。
研究团队在这项工作中给出了量化数据。
以MiniMax-M2.5这款典型的dense GQA架构模型为例——
在32K上下文时,单实例产生KV Cache的速率达到60Gbps,而跨数据中心以太网带宽通常只有10-100Gbps,相当于后者试图用家用小水管来扛消防水带的流量,根本带不动。
因此,为了保证推理不被卡住、不出现等待延迟,Prefill与Decode 之间必须使用高带宽、低时延的RDMA网络进行通信。
这就是传统PD分离架构只能被限制在RDMA域内的根本原因。
不过,
新一代混合注意力架构带来了转机
。
近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齐刷刷用上 了
线性注意力+全注意力
混合架构。
在这种混合架构下,线性层只产出固定大小的循环状态,不随上下文变长而膨胀;只有全注意力层才会生成和长度相关的KV Cache。
它带来了喜人的效果。在32K上下文下:
MiMo-V2-Flash的KV吞吐量仅4.66Gbps,比起MiniMax-M2.5来降了13倍;
Qwen3.5-397B的8.25Gbps相比同规dense模型的33.35Gbps,降低4倍;
Ring-2.5-1T的MLA压缩叠加7:1混合比例,整体KV内存节省约36倍。
“线性注意力+全注意力”混合架构把KV吞吐量从RDMA级别降到了以太网级别。
跨数据中心做PD分离,终于从不可能变成了可能。
推出破局方案“PrFaaS ”
光有模型架构还不够,想真正落地跨数据中心推理,还需要一套能把 “有可能” 变成 “能用” 的系统架构。
针对这一点,清华联合月之暗面团队推出了
PrFaas
。
PrFaaS即Prefill-as-a-Service,翻译过来叫预填充即服务。
它是一种跨数据中心的大模型推理服务架构,核心是将长上下文请求的Prefill计算,选择性卸载到独立的、算力密集型的专用集群完成,再把生成的KV Cache通过普通以太网传输到本地PD集群执行Decode。
具体来说,
系统会设一个动态长度阈值t。
如果是短请求(未缓存长度≤t),就老老实实留在本地PD集群跑完整个流程。
只有长请求(未缓存长度 > t)才会被送到专门的PrFaaS集群做Prefill,生成的KV Cache再通过以太网传回本地做 Decode。
值得注意的是,阈值t会跟着实时带宽、请求长度分布自动调整。
整套架构由三大子系统紧密配合。
第一,计算层。
PrFaaS集群上,H200这类高端芯片,只啃长上下文Prefill硬骨头;而本地PD集群去用H20这类带宽优化芯片,专心做Decode、处理短请求。
术业有专攻,两类硬件各自独立扩容,不再强行配对。
第二,网络层。
集群内部用RDMA保证低延迟,跨数据中心就用VPC或专线,走通用以太网传KV Cache,以此大幅降低部署难度和成本。
研究人员表示实测环境是100Gbps VPC。这虽然远低于RDMA的800Gbps,但足够用了。
第三,存储层
,这也是最有意思的子系统。
团队设计了一个混合前缀缓存池,把KV Cache分成两类。
一类是prefix-cache块,另一类是transfer-cache块。
prefix-cache块在集群内复用,必须块对齐才能命中;transfer-cache块则专门用于跨集群传输,传完即弃,不占用长期存储。
为什么这样设计?
因为混合模型的KV Cache是heterogeneous的。
线性层的recurrent state是request-level,大小固定,必须完全匹配才能复用;全注意力层的KV Cache是block-level,支持部分前缀匹配。
而统一池化管理,既能高效复用本地缓存,又能灵活支持跨集群传输。
此外,
为了稳住生产环境,PrFaaS还设计了双时间尺度调度算法
。
简单理解一下,就是短期毫秒级做带宽+缓存感知路由,长期分钟级做流量驱动的资源重分配。
短期调度监控PrFaaS出口利用率,接近阈值时提高t、减少跨中心流量。
对于带前缀缓存的请求,调度器会权衡缓存命中位置和带宽可用性。如果带宽紧张,优先用本地缓存;如果带宽充裕,可以从远程集群拉缓存来减少重复计算。
长期调度观察各阶段的队列深度和利用率。
当Prefill成为瓶颈时,把PD集群的节点从Decode角色转为Prefill角色;当Decode成为瓶颈时,反向调整。
这种动态重分配让系统能适应流量模式的缓慢变化。
理论可行,同时工程可用
为了验证跨数据中心 KV Cache传输与PrFaaS架构的真实落地能力,研究团队基于生产级配置开展了严格的对照实验,完整还原了异构硬件、跨域网络与真实长上下文流量的组合场景,让方案从架构设想变为可量化、可复用的工程实践。
实验选用团队内部自研的1T参数混合注意力架构模型,整体设计对齐Kimi Linear架构,采用线性注意力层与全注意力层7:1的混合配比。
此外,在保持模型能力的同时实现KV Cache的高效压缩,为跨数据中心传输奠定基础。
硬件层面
,团队采用了典型异构组合。
专门负责长上下文Prefill的PrFaaS集群配备32张H200,凭借更强算力吞吐处理高负载计算;本地PD集群配备64张H20 GPU,面向Decode阶段优化内存带宽,兼顾短请求Prefill与全流程推理。
网络层面
,团队采用跨数据中心通用方案,通过VPC对等连接提供约100Gbps的跨集群带宽,完全贴合主流云厂商与多数据中心部署环境。
实验workload采用截断对数正态分布的请求长度,均值约27K tokens,高度贴近线上长上下文服务的真实流量特征。
实验结果证明了PrFaaS-PD架构的工程有效性。
在核心性能指标上
,相比同等硬件规模的同构PD集群,PrFaaS-PD架构将服务吞吐量提升54%;相比未做智能调度的简单异构部署,吞吐量仍有32%的提升。
在端到端延迟上
,PrFaaS-PD架构带来的优化效果更为显著,P90 TTFT(首词时延)降低幅度达64%,长请求不再与短请求争抢本地Prefill资源,排队阻塞与计算拥堵问题大幅缓解。
更关键的是工程可行性指标。
PrFaaS集群的平均出口带宽仅13Gbps,在100Gbps的跨集群链路中占比仅13%,留有充足的带宽冗余,完全不会出现拥塞与链路抢占。
实验结果证实,在混合模型与PrFaaS调度的协同下,KV Cache传输可以不再依赖 RDMA,普通商用以太网即可稳定支撑。
论文团队成员介绍
这项研究
由月之暗面与清华大学联合完成
。
作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)。
其中,研究团队成员中来自月之暗面的,有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。
一作
Ruoyu Qin(秦若愚)
,是清华大学计算机科学与技术系MADSys实验室在读博士生,师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang(章明星),后者长期面向KV Cache架构与分布式推理。
同时,Qin也在月之暗面工作,还是Mooncake分布式推理系统的一作。
月之暗面工程副总裁
Xinran Xu(许欣然)
也在作者名单之列。
量子位发现,作者名单中月之暗面的五位,同样也是Mooncake架构的核心贡献者。
除上述的教授章明星外,研究团队中来自清华大学的作者还有Yongwei Wu和Weimin Zheng。
Weimin Zheng(郑纬民)
,中国工程院院士,清华大学计算机系教授,长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。
Yongwei Wu(武永卫)
是清华大学计算机科学与技术系副主任、教授、博士生导师,此外还担任AI Infra公司趋境科技的首席科学家。
此前,月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目,趋境科技是该项目核心共建单位与深度贡献者。
参考链接:
[1]
https://arxiv.org/abs/2604.15039
[2]
https://madsys.cs.tsinghua.edu.cn/people/
版权所有,未经授权不得以任何形式转载及使用,违者必究。
KVCache
月之暗面
清华大学
衡宇
大模型架构的下半场
2026-04-19
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决
2026-04-19
黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”
2026-04-19
Claude神之bug:给自己下指令,还诬赖用户??Hacker News炸了
2026-04-10
扫码分享至朋友圈
相关阅读
计图:5秒训好NeRF!已开源
全球唯一!
十三
2022-06-05
深度学习
清华大学
计图
清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置
只用专注于智能体本身研究
丰色
2023-09-12
多智能体
清华大学
清北毕业生5年来去向大数据:北大偏爱银行,清华更倾向国网,华为堪称最大黑洞
贾浩楠
萧箫
2020-10-17
北京大学
华为
清华大学
腾讯
阿里巴巴
2021清华本科特奖答辩现场:有人用AI识别甲骨文,有人研究6G,奥运冠军:走下领奖台一切归零
一年一度神仙打架
梦晨
2021-11-12
清华大学
1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动,GitHub一天斩获300+星
最省钱的大模型
十三
2024-02-02
大模型
清华大学
面壁智能
清华打造足球AI:首次实现同时控制10名球员完成比赛,胜率94.4%
性能达SOTA
丰色
2021-11-10
强化学习
清华大学
热门文章
「Claude Code之父」其实是野路子来的……
2026-04-12
别养龙虾了,硅谷Agent新潮流是「爱马仕」
2026-04-13
HTML-in-Canvas引爆前端!AI时代互联网视觉效果完全不一样了
2026-04-12
养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding
2026-04-12
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
2026-04-13
关于量子位
加入我们
寻求报道
商务合作
扫码关注量子位
追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司
京ICP备17005886号-1
本文来源:量子位