谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样
Gemini Robotics主打空间推理的第三代模型。
谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样 – 量子位
首页
资讯
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样
henry
2026-04-17
15:08:17
来源:
量子位
Gemini Robotics主打空间推理的第三代模型。
henry 发自 凹非寺
量子位 | 公众号 QbitAI
刚刚,Google DeepMind发布了最新的机器人推理模型——
Gemini Robotics-ER 1.6
。
搭载它的波士顿动力机器狗Spot,现在能走到工厂里的压力表前,停下来,读出数字。精确到刻度以下。
机械臂面对操作任务时,也能判断什么时候开始,什么时候算完成。
说起来,这已经是Gemini Robotics主打空间推理的第三代模型。
九年前谷歌把波士顿动力卖掉,今年CES刚宣布重新合作,ER 1.6就是这次新开始的第一个正式成果。
掌门人哈萨比斯也是第一时间转发了。
ER 1.6的定位是机器人的高层大脑,不直接控制机械动作,而是负责理解环境、制定计划、调用工具——
谷歌搜索、VLA、或者开发者自己定义的任何函数,都可以直接调用。
相比上一代ER 1.5和Gemini 3.0 Flash,新模型在空间推理、物体计数、任务成功检测上均有显著提升。
还多了一个全新能力,读仪表。
Gemini Robotics-ER 1.6
在技术博客中,Laura Graesser和Peng Xu两位作者开篇写道:
机器人要真正有用,就必须不只是执行指令,而是要对物理世界进行推理。
ER 1.6的核心升级围绕一件事,让机器人真正「看懂」它所处的环境。
仪表识别
先看Spot在工厂里做的那件事。
工业设施里有大量仪器需要持续监控,温度计、压力表、化学视镜。以前Spot能走过去拍一张照片,但看不懂上面的数字。
ER 1.6让这件事变了。
模型读仪表分三步。先放大,把小刻度看清楚;再用Pointing定位指针和刻度,结合代码计算比例;最后调用世界知识,把数字解释成有意义的读数。
这套组合的效果,ER 1.5的仪表识别成功率是23%,加上Agentic Vision之后,ER 1.6达到了
93%
。
波士顿动力Spot副总裁
Marco da Silva
表示:
仪表识别等能力和更可靠的任务推理,将使Spot能够完全自主地观察、理解并应对现实世界的挑战。
Pointing,空间推理的基石
仪表识别能做到这一步,背后是
Pointing
能力的支撑。
Pointing是ER模型从初代就在练的基本功。简单说,就是让模型用「点」来表达它对空间的理解,哪里有什么,有几个,怎么移动,抓哪里最合适。
ER 1.5在这一任务上表现不佳:给它一张工具图,它数错了锤子数量,漏掉了剪刀,还把图里根本不存在的手推车给「指」了出来。
ER 1.6则能把这些全部答对,锤子2把、剪刀1把、画笔1支、钳子6把,一个不差。更关键的是,对于图里没有的东西,它知道不去指。
成功检测,知道什么时候停
ER 1.6还有一个升级,成功检测。
知道任务何时结束,和知道如何开始,同样是自主性的核心。
以前的系统,做完一个动作就算完了。但真实场景里有遮挡、有光线变化、有模糊指令,「做完了」这件事本身就需要判断。
ER 1.6强化了多视角推理,机器人通常有多个摄像头,头顶一个、手腕一个,系统需要把这些视角合并成一个连贯的判断。
比如开头的那个demo:把蓝色笔放进黑色笔筒,任务完成了吗?
ER 1.6能从多个角度的画面里,给出一个可靠的答案。
顺带一提,这也是谷歌迄今最安全的机器人模型。
在对抗性空间推理任务里,ER 1.6对安全指令的遵循程度优于所有前代版本。
不处理液体、不搬运超过20公斤的物体,这类物理安全约束,ER 1.6能通过Pointing等空间输出做出更准确的判断。
在基于真实伤害报告的安全隐患识别测试里,ER系列比Gemini 3.0 Flash高出6%(文字场景)和10%(视频场景)。
谷歌与波士顿动力
看到Spot,你可能会好奇,为啥谷歌要用波士顿动力的狗?
事情是这样的:
谷歌2013年收购波士顿动力,2017年卖给软银,理由是看不到商业闭环。
2020年现代汽车以8.8亿美元接盘。然后2025年11月,波士顿动力的前CTO
Aaron Saunders
离职,加入了谷歌DeepMind。
2026年1月CES,两家在现代汽车的发布会上宣布正式合作,目标是把Gemini Robotics部署到Atlas人形机器人上。
卖出去九年,又回来了。
哈萨比斯的说法是,谷歌不做硬件,要成为「机器人领域的Android」,给所有机器人厂商提供大脑。
这次ER 1.6发布,署名了两位作者,
Laura Graesser
和
Peng Xu
。
Laura Graesser
是牛津本科、NYU硕士出身,2018年加入Google,2023年至今在DeepMind做机器人研究,还合著过一本强化学习教科书《Foundations of Deep Reinforcement Learning》。
她早期的研究方向之一,是让机器人打乒乓球,系统需要在100毫秒内完成感知、计算和击球动作。
Peng Xu
是DeepMind机器人基础模型方向的研究员,专注机器人学习与大模型的结合,不仅参与过上面的机器人打乒乓球,也是RT-1、RT-2、Cap(Code as policy)、Gemini robotics等一系列著名工作的作者之一。
参考链接
[1]https://deepmind.google/blog/gemini-robotics-er-1-6/
[2]https://deepmind.google/models/gemini-robotics/gemini-robotics/
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Gemini
具身智能
henry
π0.7发布,VLA押出了机器人的GPT-3时刻
2026-04-17
死敌爆料是狠!OpenAI内部信阴阳Claude营收注水80亿,然后泄露了…
2026-04-15
有人把巴菲特芒格炼化成Agent,然后开源了…
2026-04-13
OpenAI新模型不是GPTX!全新预训练“土豆”曝光,Sora成弃子的原因找到了
2026-04-05
扫码分享至朋友圈
相关阅读
三赴CES,睿尔曼以三大底层能力构建全球化具身智能新基建
50000小时无故障运行
十三
2026-01-07
CES 2026
具身智能
霍尔曼机器人
10家机构共筑具身智能真机评测基石:RoboChallenge组委会正式启航
从开源协作到标准制定
十三
2025-11-20
RoboChallenge
具身智能
评测
14万,家务机器人带回家!斯坦福华人博士具身创业首款产品亮相
妥妥的年轻人创业,主打一个听劝
henry
2025-11-21
具身智能
国产世界模型登顶全球第一!断层领先谷歌英伟达,3D准确度近满分
最新Pre-B轮收获10亿融资
量子位
2026-03-30
世界模型
具身智能
清华
这届清华特奖机器人含量爆表!丘成桐(国内版)现身点评
梦瑶
2025-11-14
具身智能
清华
刚刚,一家具身智能明星公司原地解散了
5月推出,10月解散,快得多数创始员工还没过“试用期”。
henry
2025-10-17
具身智能
热门文章
「Claude Code之父」其实是野路子来的……
2026-04-12
36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26
2026-04-12
HTML-in-Canvas引爆前端!AI时代互联网视觉效果完全不一样了
2026-04-12
别养龙虾了,硅谷Agent新潮流是「爱马仕」
2026-04-13
超越人手!中国第一家脑机接口独角兽,要把仿生手带给机器人
2026-04-12
关于量子位
加入我们
寻求报道
商务合作
扫码关注量子位
追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司
京ICP备17005886号-1
本文来源:量子位