对话罗剑岚:把机器人“部署”本身变成训练的一部分

点击查看原文>

作者 | 华卫

具身智能过去两年始终无法回避的核心矛盾:模型越来越强,但机器人仍然很“笨拙”。真实部署不是一个固定测试集,机器人进入商店、家庭和工作空间后,会不断遇到预训练数据没有覆盖的新物体、新摆放、新指令偏好和长尾失败。原因并不复杂,长期以来,机器人的绝大多数能力来自离线训练,而真实世界却从未真正进入训练闭环。

最近,罗剑岚团队拿出了解决方案:把“部署”本身变成训练的一部分。上海创智学院与智元机器人联合发布了这套方法名为 LWD(Learning While Deploying),不试图解决某一个单点技术问题,直接改写整个训练范式:让落地后的机器人在实际工作中回流数据并反哺训练、更新能力,而不是等着它在数据集里一次性“学够”。

发布后不久,上海创智学院副教授,智元机器人首席科学家罗剑岚向我们详细披露了 LWD 这项工作未对外公示的技术设计细节及这套体系接下来的演进方向。

机器人“边干边学”后,成功率达到 95%

在传统路径中,具身模型通常经历大规模预训练、模仿学习、再到有限的强化学习优化,最后进入部署验证阶段。这个流程的问题在于,部署即为结束,真实世界的数据包括环境变化带来的分布偏移、长尾任务中的探索过程,以及失败暴露出的能力边界并没有被系统性地吸收进下一轮训练。最有价值的那部分经验,反而被浪费掉了。

而 LWD 的核心能力,可以打通这一断裂。它将机器人学习过程重构为一个持续运转的数据飞轮:离线强化学习预训练得到初始策略,推送到机器人集群中执行;机器人在真实环境中产生的自主轨迹和人工接管数据实时回流;Learner 在云端进行在线强化学习更新;再将优化后的策略同步回机器人集群,如此循环往复。

在这个框架下,每一台部署中的机器人,既是执行者,也是数据采集节点,真实世界从“测试集”变成了“主训练场”。部署不再是训练的终点,而是机器人智能持续提升的起点。

据介绍,团队在 16 台双臂机器人组成的真实集群上,针对商超补货、泡茶、榨汁、物品收纳等 8 个复杂任务进行了系统测试。这些任务往往需要持续数分钟的多步骤规划和精细物理操作。评测结果显示,搭载新框架的机器人平均成功率达到了 95%,显著优于传统方案。在最棘手的长程任务中,新框架带来了最高 17%的成功率提升,而且单次任务平均操作周期缩短了约 23.75 秒。这意味着机器人变得更聪明,学会了自我纠错和路径优化。

在被问及 LWD 的数据飞轮要真正转起来的瓶颈时,罗剑岚直接指向了一个更底层的现实约束,即大规模真实部署背后的经济问题。“机器人是一个系统工程,数据、基建、算法、机器人数量以及人工干预都重要,但如果只看当前阶段,最核心的问题还是 cost。只有当足够多的机器人在真实场景中持续干活,积累上万小时甚至上万台规模的交互数据,这个飞轮才有机会真正闭环运转。即使现有算法还不完美,其中大量 incremental improvement 依然可以工作。”

这也意味着,部署本身正在成为新的训练资源。“换句话说,谁能部署更多机器人、让更多真实数据持续回流,谁就更有机会把数据飞轮真正转起来。”罗剑岚还表示,在 scale up 过程中,还会继续遇到数据质量、基础设施和算法层面的新问题。但这些问题是随着部署规模扩大逐步暴露、逐步解决,而不是在一开始就能完全预先解决。

部署数据全部回流,人工干预不等同成功示范

罗剑岚提出的这条路径,听起来像是一项顺理成章的演进。但真正的难点在于,这种从离线到在线的统一训练,需要同时解决分布偏移、奖励稀疏和数据来源的高度异构三个问题。

据罗剑岚介绍,围绕这些难点,LWD 在技术设计上做出了一系列关键选择,包括让所有部署数据无筛选回流、通过强化学习框架统一处理不同来源数据、将人工干预数据通过结果自动打标纳入同一奖励体系,以及采用稀疏奖励来避免 reward hacking 问题。

首先,LWD 是强化学习框架,部署后的数据会全部回流使用,没有人工筛选步骤。系统是在线、分布式地把数据拿回来训练。但对于人工干预数据,处理方式也不是简单地一律当成成功示范,而是自动打标的。如果人工干预后任务最终成功,就标记为 1;如果干预后仍然失败,就标记为 0。

更重要的一点是,干预率本身是在下降的。罗剑岚称,随着机器人自主能力提升、数据不断回流,系统会越来越少依赖人工接管。所以在实际形态上,更像是一种混合自治:初期人机协作较多,后期逐步过渡到更高自主性。“这一点其实和自动驾驶的发展路径是类似的。”

其次,LWD 奖励函数使用的是稀疏奖励。核心原因是 dense reward 容易带来 reward hacking。稠密奖励确实可能让模型学得更快,因为它提供了 shaping 信号;但手写 reward function 往往很难和真实物理系统、智能体真正应该完成的行为一一对应。

罗剑岚举的一个典型例子是仿真里用 RL 学走路:如果奖励只写成“重心速度越快越好”,模型可能会找到一种不符合常识的“前进方式”,比如把头放在地上、腿朝上,用奇怪姿态让重心快速移动。为了修正这些问题,又要不断增加脚朝地、头朝上、姿态合理等额外项,最后 reward function 会变得非常复杂,而且仍然不一定和真实目标完全一致。

“机器人操作也是类似的。manipulation 任务里,很难一次性把所有细节奖励都写对;只要没写对,就可能被模型 hack。因此稀疏奖励的好处是,它至少能保证最终行为符合预期:成功就是 1,不成功就是 0。”他也坦言,尽管如此,稀疏奖励的问题也很明显:长程任务中信号很少,backup 不稳定,很难把正确信号传回前面的步骤。LWD 用 distributional value learning 来缓解这个问题,把原本的标量价值信号建模成分布,通过备份这个分布来保留更多统计信息。

对于“边部署边学习”可能带来的安全性与稳定性问题,罗剑岚也明确表示,在真实部署中,一定会有额外的安全层。模型不会每时每刻都在变化,更新是有节奏、有控制的。另外,基础模型本身成功率就比较高,在线学习更多是在这个基础上做提升,而不是完全不稳定的探索。

率先跑通闭环:最适合的是“middle ground”

当“部署也变成训练”这件事成立之后,它改变的就不只是单一算法或系统设计,而是整个具身智能的技术路径与产业逻辑。

在罗剑岚看来,这一过程可以参考自动驾驶的发展。自动驾驶没有办法在真实道路上随意在线试错,所以会发展出世界模型、高保真仿真器和离线评测体系;从产业链看,它也经历了从少量试采车、离线数据采集,逐渐转向部署数据回流、处理回流数据、再训练、再推送模型的迭代过程。

“机器人如果能形成 LWD 这样的部署闭环,数据链路也会从‘先采集、再训练、再部署’的离线管线,转向‘部署中持续回流数据,云端持续训练,再把新模型推回机器人’的过程。区别在于,机器人场景如果允许在线学习和试错,这套在线闭环的效率可能会更快。”

具体落地上,他认为,最适合率先跑通这一闭环的不会是完全开放的家庭场景,也不是高度结构化的工业环境,而是介于两者之间的“middle ground”,例如商超、药店和便利店。“这类半结构化场景的 layout 和物品类别有一定规律,不是完全不可控;但同时又存在丰富变化,对泛化性和性能都有要求。”

“大规模实验中,未来会涌现 scaling 现象”

LWD 的核心是,预训练要和部署结合,形成预训练和后训练共同驱动的部署闭环。谈及 VLA 和世界模型两条预训练路线的未来走向,罗剑岚表示,“如果 VLA 指的是 vision-language-action model,即同时包含视觉、语言和动作,那么它不太可能被世界模型简单取代。机器人要做动作,一定需要 vision,也一定需要 action。”

他指出,真正有争议的更多是 language 是否必要。如果机器人要在开放世界中完成复杂操作、长程任务拆解和类似人的推理,那么 language 是需要的,因为语言模型是目前实现这类推理能力最好的工具之一。

“但现在的 VLA 形式不一定会固定下来。比如是不是一定要把 action 当成若干 token 接到 VLM 后面、对齐到某个 latent space,这些都不一定。”

罗剑岚还透露,LWD 是在预训练模型基础上做后训练,对数据的利用效率很高,即使用的数据量不算特别大,也能看到性能提升。随着后训练时间增加,模型性能会在多个任务上同时提升。“更大规模实验中,未来可能会看到类似 test-time scaling 的现象。”

不过,罗剑岚也强调道,机器人不完全等同于语言模型,语言模型的 scaling 往往可以通过 pretraining loss 和下游 benchmark 建立比较清晰的关系。机器人还需要先把问题定义清楚,包括在哪些部署场景、优化哪些指标,才能进一步讨论 scaling 或涌现。


本文来源:InfoQ