AI 资讯

π0.7发布，VLA押出了机器人的GPT-3时刻

π0.7：具有涌现能力的可控模型

AI_light

19 Apr 2026 • 14 min read

π0.7发布，VLA押出了机器人的GPT-3时刻 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

π0.7发布，VLA押出了机器人的GPT-3时刻

henry

2026-04-17

14:57:35

来源：

量子位

π0.7：具有涌现能力的可控模型

henry 发自凹非寺

量子位 | 公众号 QbitAI

今天凌晨，

Physical Intelligence

发布了全新的VLA模型

π0.7

，狠狠敲了世界模型一记闷棍。

π0.7第一次在机器人领域证明了

Compositional Generalization（组合泛化）

，且VLA。

在遇到新任务时，模型可以组合以前学过的原子技能，自己拼出解法。

就像乔丹会跳投、会后仰，遇到新防守时自己琢磨出后仰跳投。

没人专门教他这一招，他自己组出来了。

Demo里最炸的两个：

任务泛化

：机器人没见过空气炸锅，也能根据指令，组合机械臂动作把红薯烤出来。

本体泛化

：把从一个机械臂学来的抓取策略，直接部署在另一台机械臂上。

更离谱的是，Physical Intelligence的研究员自己也说不清π0.7到底会什么。

他们还在探索边界，玩起来很有趣，到目前为止效果相当令人惊喜。

切黄瓜、削皮、倒垃圾、烤红薯……都能干

用Physical Intelligence的研究员

Ashwin Balakrishna

说：

我过去总能根据训练数据猜出模型能做什么。这一次,我猜不到了。

π0.7：具有涌现能力的可控模型

π0.7最核心的洞见只有一句话，

多样化的数据需要多样化的prompt

。但它带来的结果，远比这句话本身要深远得多。

用多样化的prompt，吃下多样化的数据

过去VLA训练只喂一句清理冰箱，模型得到的信号是单一的。π0.7把prompt展开成四层：

任务指令（清理厨房）+子任务指令（打开冰箱）+子目标图像（下一秒画面应该长什么样）+episode元数据（这条数据质量几分、有没有出错、速度多快）。

有了这些丰富的context，模型就能分得清训练数据里的好坏、快慢、对错。

然后它就能吃下以前吃不了的数据。失败的rollouts，低质量的演示，其他机器人的片段，人类的egocentric视频，全都变成有用的信号。

换句话说，多样数据本身不是问题，问题是模型不知道自己在学什么。

π0.7加的那层prompt，就是让模型知道“这段数据是什么质量、用什么策略做的”。

于是，具身领域第一次出现通才追平专才的涌现时刻。

通才追平专才

在转帖中，Physical Intelligence联合创始人

Chelsea Finn

说了一个很有意思的对比：

大语言模型的后训练，过去指的是针对下游任务做微调。一直以来，机器人也卡在这个阶段，想要最好的性能，就得针对具体任务微调。

π0.7改变了这一点：开箱即用，而且超过了fine-tuned的专家模型。

口说无凭，实验数据是这样的：

π0.7没做任何专项训练，就能在

做咖啡、叠衣服、装箱

三个复杂任务上，追平π0.6经过微调的的专家模型。

这里说的专家模型有两种，一种是π*0.6的RL specialist，用RECAP方法针对咖啡、装箱、叠衣服单独训过。

另一种是π0.6上的

SFT specialist

，针对每个任务单独微调过。

更离谱的是，在

叠衣服

和

装箱

这两个最难的任务上，π0.7的比RL specialist单位时间完成的次数更多。

可以说，一个什么都没专门训过的通才，打过了专门为某个任务训出来的专才。而这也是PI一直坚定的方向之一。

组合泛化开始涌现

π0.7的涌现能力分成四块。

开箱即用的dexterity

：做咖啡、叠衣服、剥蔬菜、削西葫芦、换垃圾袋。全部不做任务专项训练。

指令泛化

：在4个没见过的厨房和2个没见过的卧室里，跟着3-6步开放指令干活。

甚至能听懂拿起那个最大盘子里的水果、拿起我用来喝汤的那个东西这种复杂空间和语义指代。

跨本体泛化

：在叠T恤等任务中，训练数据里一条UR5e叠衣服的样本都没有。

π0.7不但做出来了，

任务完成度85.6%，和10个平均375小时teleoperation经验的顶级人类操作员的90.9%基本打平。

而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

人类操作员在源机器人上用倾斜夹爪贴住桌面抓，π0.7在UR5e上用的是垂直抓取，因为这更适合UR5e更长的手臂运动学。

组合任务泛化

：

用空气炸锅做红薯、烤贝果、按下按钮、用抹布擦耳机和尺子、拧旋钮和桌面风扇，

训练数据里一条都没有。

这不是多做了几个任务的增量，是

机器人第一次像LLM那样，从训练数据里涌现出新能力。

正如，Sergey Levine说的：

一旦模型越过那个阈值，从「只能做收集过数据的事」变成「开始重组出新事」，能力就会超线性地随数据增长。

数据过滤可能是个伪问题

论文里藏着一个非常反直觉的实验。

研究把叠衣服的数据按质量分四档：top30%、top50%、top80%、全部数据。

然后分别训两个版本的π0.7，一个加metadata（每条数据打上质量几分、有没有出错、多快完成的标签），一个不加。

结果很有意思。

不加metadata的版本

，数据越多，性能越差——因为混入了低质量数据把模型带歪了。

加了metadata的版本

，数据越多，性能越好——哪怕平均质量在下降。

这意味着

整个具身领域过去几年都在做的“数据清洗”，可能是个伪问题。

只要模型知道每条数据的质量标签，它就能自己决定要学什么、不学什么。

垃圾数据不再是垃圾，是带着quality=1/5标签的有用信号。失败数据也不是要丢掉的东西，是告诉模型这么干会失败的反面教材。

过去所有人都在小心翼翼地挑演示、删失败、洗数据。π0.7说，别洗了，告诉模型哪些脏就行。

π0.7是怎么做到的？

π0.7是一个5B参数的模型，分三块。

VLM骨干：4B参数的Gemma3，负责理解视觉和语言。

Action expert：860M参数的transformer，用flow matching生成连续动作chunk，50Hz高频控制。

World model：从14B的BAGEL图像生成模型初始化，负责给π0.7画出未来几秒应该是什么样子。

在推理中，

模型输入

包括：4路摄像头（前视+两个腕部+可选后视）、每路6帧历史画面、机器人关节状态、再加上任务指令、子任务指令、元数据、以及world model实时画出的次目标图像。

输出

是一段50步的action chunk，实际执行15到25步，然后再推下一段。

说到这里，可能有人会问，π0.7里塞了个world model，这算不算和世界模型派融合了？

半算，半不算。

世界模型派的核心是让模型学会

模拟物理演化

：给一个动作，预测世界变成什么样。policy基于这个预测做决策。

π0.7里的world model不干这事。它只负责一件事，

把任务指令翻译成成功那一帧应该长啥样

。不预测动作后果，不模拟物理，不参与决策链路。

它是个消歧器，不是个规划器。

用世界模型派的武器，干了一件不是世界模型派想象的事。

此外，π0.7还站在两篇前作的肩膀上，继承了π0.6的架构底子，以及MEM的多尺度记忆编码器（短期视频memory+长期语义memory）。

训练上用了

Knowledge Insulation

——

VLM骨干用FAST token做next-token prediction训练，action expert的梯度不回传到VLM。这样VLM从互联网学来的语义知识被保护住，不被机器人动作数据污染。

但架构不是π0.7最重要的东西，论文中也说：

我们的贡献不是提出新的架构或模型设计，而是一套让VLA能使用更多样化数据源的方法论。

VLM可以直接控制机器人，不需要先学会想象世界

在π0.7之前，具身圈最火的还是英伟达去年用Cosmos带起来的世界模型风潮。

让机器人先学会

想象未来

，再去

操作现在

。

这个路线看起来很符合直觉，人类不就是这么干的吗？闭上眼睛想一下要做什么，然后再动手。

从2025年到现在，这条路线收了最多的注意力和投入。

今天，风向又要变了——VLA回来了！

而说到VLA，压根没人比Physical Intelligence更懂。

2023年，PI联创

Karol Hausman

、

Sergey Levine

、

Chelsea Finn

三个人，在Google做RT-2的时候，就押注了一个判断。

VLM可以直接控制机器人，不需要先学会想象世界。

意思是，你不用让模型先学会预测下一帧画面、不用让它脑补物理规律、不用让它建立一个内部的世界模拟器。

你直接拿一个已经见过互联网的VLM，接一个动作头，端到端训，就够了。

从RT-2到π0.7，其实只有两代VLA架构。

第一代是RT-2

，把机器人动作离散化成token，塞进VLM的next-token prediction里。

能动，但控制精度不高，而且自回归预测生成慢，跟不上50Hz的高频连续控制。

第二代是π0开的头

，给VLM接一个专门的action expert，用flow matching直接生成连续动作chunk。

中间那些模型——π0.5的open-world generalization、π0.6的RL自我练习、MEM的多尺度记忆——

都没改这个基座。

都是在VLM+action expert+flow matching这个结构上往上加能力。

π0.7也是。架构上它和π*0.6没有本质差别，它加的是prompt的多样性。

这就是为什么论文里说”我们的贡献不是架构”。

但，更有意思的是另一个人。

Lucy Shi

，斯坦福博士生在读，师从Chelsea Finn，π0.7的核心作者之一。

她在推特上发了一条thread，讲了一个非常诚实的故事。

之前，她跟着朱玉可、Jim Fan在英伟达做世界模型。

她押的注和Karol他们相反——

世界模型会是关键的钥匙，会在任务泛化上显著超过标准VLA方法。

一开始，结果确实支持这个假设。她拿到了惊艳的组合泛化，机器人能遵循没见过的指令，做训练数据里没有的任务，从其他机器人和人类视频迁移。

但有个奇怪的事情发生了。

他们拿来对比的VLA基线，一直在变强。

随着数据越收越多，VLA越来越强，直到有一天，VLA基线也开始展示出组合泛化的信号。

而且，

VLA的方法简单得多。

面对这一问题，Lucy感到无可奈何：

当你的基线吃掉了你的研究假设，你能怎么办？你写一篇论文，去搞清楚基线为什么这么强。

那篇论文，就是π0.7。

参考链接

[1]https://www.pi.website/blog/pi07

[2]https://x.com/physical_int/status/2044841263254638862

[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

具身智能

henry

谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

2026-04-17

死敌爆料是狠！OpenAI内部信阴阳Claude营收注水80亿，然后泄露了…

2026-04-15

有人把巴菲特芒格炼化成Agent，然后开源了…

2026-04-13

OpenAI新模型不是GPTX！全新预训练“土豆”曝光，Sora成弃子的原因找到了

2026-04-05

扫码分享至朋友圈

π0.7发布，VLA押出了机器人的GPT-3时刻

AI_light

Sign up for more like this.

让Agent越用越强：AReaL 2.0开源，给智能体装上“成长系统”

GitLab 调研：AI 工具仅加快编码，整体软件交付效率并未提升

从龙蜥孵化到上游贡献：SGLang Tracing 与 AI Agent 调优实践