Kimi新论文:把KVCache玩成新商业模式了

超长上下文福音

Kimi新论文:把KVCache玩成新商业模式了 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Kimi新论文:把KVCache玩成新商业模式了

衡宇

2026-04-19

18:19:45

来源:

量子位

超长上下文福音

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

把长上下文做到极致的Kimi又发新成果!

这一次瞄准的是大模型推理架构跨机房调度沉疴。

他们提出了一套全新范式,

Prefill-as-a-Service

(简称PrFaaS)

,预填充即服务。

其核心突破是让KV Cache可以跨数据中心传输,把Prefill和Decode彻底解耦到不同的异构集群。

有了PrFaaS,

Prefill和Decode之间可以跨越城市、跨地域调度。

而且,面对长文本场景,上下文越长,它的优势越明显。

可以说是

长上下文场景天生圣体

(doge)!

这项工作

由月之暗面和清华大学清华大学郑纬民院士、武永卫教授团队联合推出

在内部1T参数混合注意力模型的实测验证下,这套PrFaaS-PD架构交出了极具说服力的数据。

相比传统同构PD部署,吞吐量提升54%,P90延迟大幅降低64%;即便对比未做智能调度的朴素异构方案,吞吐量依然提升32%。

而跨数据中心传输仅占用13Gbps带宽,远低于100Gbps的以太网上限,也就是说

普通商用以太网即可稳定承载

这背后是怎么做到的?

为什么必须跨数据中心?

Prefill-Decode分离是大模型推理服务的行业标配。

但这让

KV Cache传输高度依赖RDMA网络,牢牢地把Prefill和Decode两个阶段强行绑定在单一集群内

解绑单飞不了,压根儿解绑单飞不了。

于是,如果最适合做Prefill的算力芯片和最适合做Decode的带宽芯片不在一个机房,是异地恋的状态,就根本没办法一起用。

但强行把异构硬件塞到一起,必然导致资源配比完全僵死。

大家都知道流量是波动的。配比如果定死,很容易出现一边忙到飞起,一边闲成狗的情况出现,算力利用率大打折扣。

导致这个情况的“病灶”,就是就是

KV Cache的带宽墙

研究团队在这项工作中给出了量化数据。

以MiniMax-M2.5这款典型的dense GQA架构模型为例——

在32K上下文时,单实例产生KV Cache的速率达到60Gbps,而跨数据中心以太网带宽通常只有10-100Gbps,相当于后者试图用家用小水管来扛消防水带的流量,根本带不动。

因此,为了保证推理不被卡住、不出现等待延迟,Prefill与Decode 之间必须使用高带宽、低时延的RDMA网络进行通信。

这就是传统PD分离架构只能被限制在RDMA域内的根本原因。

不过,

新一代混合注意力架构带来了转机

近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齐刷刷用上 了

线性注意力+全注意力

混合架构。

在这种混合架构下,线性层只产出固定大小的循环状态,不随上下文变长而膨胀;只有全注意力层才会生成和长度相关的KV Cache。

它带来了喜人的效果。在32K上下文下:

MiMo-V2-Flash的KV吞吐量仅4.66Gbps,比起MiniMax-M2.5来降了13倍;

Qwen3.5-397B的8.25Gbps相比同规dense模型的33.35Gbps,降低4倍;

Ring-2.5-1T的MLA压缩叠加7:1混合比例,整体KV内存节省约36倍。

“线性注意力+全注意力”混合架构把KV吞吐量从RDMA级别降到了以太网级别。

跨数据中心做PD分离,终于从不可能变成了可能。

推出破局方案“PrFaaS ”

光有模型架构还不够,想真正落地跨数据中心推理,还需要一套能把 “有可能” 变成 “能用” 的系统架构。

针对这一点,清华联合月之暗面团队推出了

PrFaas

PrFaaS即Prefill-as-a-Service,翻译过来叫预填充即服务。

它是一种跨数据中心的大模型推理服务架构,核心是将长上下文请求的Prefill计算,选择性卸载到独立的、算力密集型的专用集群完成,再把生成的KV Cache通过普通以太网传输到本地PD集群执行Decode。

具体来说,

系统会设一个动态长度阈值t。

如果是短请求(未缓存长度≤t),就老老实实留在本地PD集群跑完整个流程。

只有长请求(未缓存长度 > t)才会被送到专门的PrFaaS集群做Prefill,生成的KV Cache再通过以太网传回本地做 Decode。

值得注意的是,阈值t会跟着实时带宽、请求长度分布自动调整。

整套架构由三大子系统紧密配合。

第一,计算层。

PrFaaS集群上,H200这类高端芯片,只啃长上下文Prefill硬骨头;而本地PD集群去用H20这类带宽优化芯片,专心做Decode、处理短请求。

术业有专攻,两类硬件各自独立扩容,不再强行配对。

第二,网络层。

集群内部用RDMA保证低延迟,跨数据中心就用VPC或专线,走通用以太网传KV Cache,以此大幅降低部署难度和成本。

研究人员表示实测环境是100Gbps VPC。这虽然远低于RDMA的800Gbps,但足够用了。

第三,存储层

,这也是最有意思的子系统。

团队设计了一个混合前缀缓存池,把KV Cache分成两类。

一类是prefix-cache块,另一类是transfer-cache块。

prefix-cache块在集群内复用,必须块对齐才能命中;transfer-cache块则专门用于跨集群传输,传完即弃,不占用长期存储。

为什么这样设计?

因为混合模型的KV Cache是heterogeneous的。

线性层的recurrent state是request-level,大小固定,必须完全匹配才能复用;全注意力层的KV Cache是block-level,支持部分前缀匹配。

而统一池化管理,既能高效复用本地缓存,又能灵活支持跨集群传输。

此外,

为了稳住生产环境,PrFaaS还设计了双时间尺度调度算法

简单理解一下,就是短期毫秒级做带宽+缓存感知路由,长期分钟级做流量驱动的资源重分配。

短期调度监控PrFaaS出口利用率,接近阈值时提高t、减少跨中心流量。

对于带前缀缓存的请求,调度器会权衡缓存命中位置和带宽可用性。如果带宽紧张,优先用本地缓存;如果带宽充裕,可以从远程集群拉缓存来减少重复计算。

长期调度观察各阶段的队列深度和利用率。

当Prefill成为瓶颈时,把PD集群的节点从Decode角色转为Prefill角色;当Decode成为瓶颈时,反向调整。

这种动态重分配让系统能适应流量模式的缓慢变化。

理论可行,同时工程可用

为了验证跨数据中心 KV Cache传输与PrFaaS架构的真实落地能力,研究团队基于生产级配置开展了严格的对照实验,完整还原了异构硬件、跨域网络与真实长上下文流量的组合场景,让方案从架构设想变为可量化、可复用的工程实践。

实验选用团队内部自研的1T参数混合注意力架构模型,整体设计对齐Kimi Linear架构,采用线性注意力层与全注意力层7:1的混合配比。

此外,在保持模型能力的同时实现KV Cache的高效压缩,为跨数据中心传输奠定基础。

硬件层面

,团队采用了典型异构组合。

专门负责长上下文Prefill的PrFaaS集群配备32张H200,凭借更强算力吞吐处理高负载计算;本地PD集群配备64张H20 GPU,面向Decode阶段优化内存带宽,兼顾短请求Prefill与全流程推理。

网络层面

,团队采用跨数据中心通用方案,通过VPC对等连接提供约100Gbps的跨集群带宽,完全贴合主流云厂商与多数据中心部署环境。

实验workload采用截断对数正态分布的请求长度,均值约27K tokens,高度贴近线上长上下文服务的真实流量特征。

实验结果证明了PrFaaS-PD架构的工程有效性。

在核心性能指标上

,相比同等硬件规模的同构PD集群,PrFaaS-PD架构将服务吞吐量提升54%;相比未做智能调度的简单异构部署,吞吐量仍有32%的提升。

在端到端延迟上

,PrFaaS-PD架构带来的优化效果更为显著,P90 TTFT(首词时延)降低幅度达64%,长请求不再与短请求争抢本地Prefill资源,排队阻塞与计算拥堵问题大幅缓解。

更关键的是工程可行性指标。

PrFaaS集群的平均出口带宽仅13Gbps,在100Gbps的跨集群链路中占比仅13%,留有充足的带宽冗余,完全不会出现拥塞与链路抢占。

实验结果证实,在混合模型与PrFaaS调度的协同下,KV Cache传输可以不再依赖 RDMA,普通商用以太网即可稳定支撑。

论文团队成员介绍

这项研究

由月之暗面与清华大学联合完成

作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)。

其中,研究团队成员中来自月之暗面的,有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

一作

Ruoyu Qin(秦若愚)

,是清华大学计算机科学与技术系MADSys实验室在读博士生,师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang(章明星),后者长期面向KV Cache架构与分布式推理。

同时,Qin也在月之暗面工作,还是Mooncake分布式推理系统的一作。

月之暗面工程副总裁

Xinran Xu(许欣然)

也在作者名单之列。

量子位发现,作者名单中月之暗面的五位,同样也是Mooncake架构的核心贡献者。

除上述的教授章明星外,研究团队中来自清华大学的作者还有Yongwei Wu和Weimin Zheng。

Weimin Zheng(郑纬民)

,中国工程院院士,清华大学计算机系教授,长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。

Yongwei Wu(武永卫)

是清华大学计算机科学与技术系副主任、教授、博士生导师,此外还担任AI Infra公司趋境科技的首席科学家。

此前,月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目,趋境科技是该项目核心共建单位与深度贡献者。

参考链接:

[1]

https://arxiv.org/abs/2604.15039

[2]

https://madsys.cs.tsinghua.edu.cn/people/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

KVCache

月之暗面

清华大学

衡宇

大模型架构的下半场

2026-04-19

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

2026-04-19

黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

2026-04-19

Claude神之bug:给自己下指令,还诬赖用户??Hacker News炸了

2026-04-10

扫码分享至朋友圈

相关阅读

计图:5秒训好NeRF!已开源

全球唯一!

十三

2022-06-05

深度学习

清华大学

计图

清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置

只用专注于智能体本身研究

丰色

2023-09-12

多智能体

清华大学

清北毕业生5年来去向大数据:北大偏爱银行,清华更倾向国网,华为堪称最大黑洞

贾浩楠

萧箫

2020-10-17

北京大学

华为

清华大学

腾讯

阿里巴巴

2021清华本科特奖答辩现场:有人用AI识别甲骨文,有人研究6G,奥运冠军:走下领奖台一切归零

一年一度神仙打架

梦晨

2021-11-12

清华大学

1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动,GitHub一天斩获300+星

最省钱的大模型

十三

2024-02-02

大模型

清华大学

面壁智能

清华打造足球AI:首次实现同时控制10名球员完成比赛,胜率94.4%

性能达SOTA

丰色

2021-11-10

强化学习

清华大学

热门文章

「Claude Code之父」其实是野路子来的……

2026-04-12

别养龙虾了,硅谷Agent新潮流是「爱马仕」

2026-04-13

HTML-in-Canvas引爆前端!AI时代互联网视觉效果完全不一样了

2026-04-12

养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding

2026-04-12

Claude强到不敢发的Mythos,被质疑用了字节Seed技术

2026-04-13

关于量子位

加入我们

寻求报道

商务合作

扫码关注量子位

追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司

京ICP备17005886号-1


本文来源:量子位