刚刚,Google DeepMind 发布了最新的机器人推理模型——
Gemini Robotics-ER 1.6。
搭载它的波士顿动力机器狗 Spot,现在能走到工厂里的压力表前,停下来,读出数字。精确到刻度以下。
机械臂面对操作任务时,也能判断什么时候开始,什么时候算完成。
说起来,这已经是 Gemini Robotics 主打空间推理的第三代模型。
九年前谷歌把波士顿动力卖掉,今年 CES 刚宣布重新合作,ER 1.6 就是这次新开始的第一个正式成果。
掌门人哈萨比斯也是第一时间转发了。

ER 1.6 的定位是机器人的高层大脑,不直接控制机械动作,而是负责理解环境、制定计划、调用工具——
谷歌搜索、VLA、或者开发者自己定义的任何函数,都可以直接调用。
相比上一代 ER 1.5 和 Gemini 3.0 Flash,新模型在空间推理、物体计数、任务成功检测上均有显著提升。
还多了一个全新能力,读仪表。

Gemini Robotics-ER 1.6
在技术博客中,Laura Graesser 和 Peng Xu 两位作者开篇写道:
机器人要真正有用,就必须不只是执行指令,而是要对物理世界进行推理。
ER 1.6 的核心升级围绕一件事,让机器人真正「看懂」它所处的环境。
仪表识别
先看 Spot 在工厂里做的那件事。
工业设施里有大量仪器需要持续监控,温度计、压力表、化学视镜。以前 Spot 能走过去拍一张照片,但看不懂上面的数字。
ER 1.6 让这件事变了。
模型读仪表分三步。先放大,把小刻度看清楚;再用 Pointing 定位指针和刻度,结合代码计算比例;最后调用世界知识,把数字解释成有意义的读数。
这套组合的效果,ER 1.5 的仪表识别成功率是 23%,加上 Agentic Vision 之后,ER 1.6 达到了93%。

波士顿动力 Spot 副总裁Marco da Silva表示:
仪表识别等能力和更可靠的任务推理,将使 Spot 能够完全自主地观察、理解并应对现实世界的挑战。
Pointing,空间推理的基石
仪表识别能做到这一步,背后是Pointing能力的支撑。
Pointing 是 ER 模型从初代就在练的基本功。简单说,就是让模型用「点」来表达它对空间的理解,哪里有什么,有几个,怎么移动,抓哪里最合适。
ER 1.5 在这一任务上表现不佳:给它一张工具图,它数错了锤子数量,漏掉了剪刀,还把图里根本不存在的手推车给「指」了出来。
ER 1.6 则能把这些全部答对,锤子 2 把、剪刀 1 把、画笔 1 支、钳子 6 把,一个不差。更关键的是,对于图里没有的东西,它知道不去指。
成功检测,知道什么时候停
ER 1.6 还有一个升级,成功检测。
知道任务何时结束,和知道如何开始,同样是自主性的核心。
以前的系统,做完一个动作就算完了。但真实场景里有遮挡、有光线变化、有模糊指令,「做完了」这件事本身就需要判断。
ER 1.6 强化了多视角推理,机器人通常有多个摄像头,头顶一个、手腕一个,系统需要把这些视角合并成一个连贯的判断。
比如开头的那个 demo:把蓝色笔放进黑色笔筒,任务完成了吗?
ER 1.6 能从多个角度的画面里,给出一个可靠的答案。
顺带一提,这也是谷歌迄今最安全的机器人模型。
在对抗性空间推理任务里,ER 1.6 对安全指令的遵循程度优于所有前代版本。
不处理液体、不搬运超过 20 公斤的物体,这类物理安全约束,ER 1.6 能通过 Pointing 等空间输出做出更准确的判断。

在基于真实伤害报告的安全隐患识别测试里,ER 系列比 Gemini 3.0 Flash 高出 6%(文字场景)和 10%(视频场景)。
谷歌与波士顿动力
看到 Spot,你可能会好奇,为啥谷歌要用波士顿动力的狗?
事情是这样的:
谷歌 2013 年收购波士顿动力,2017 年卖给软银,理由是看不到商业闭环。
2020 年现代汽车以 8.8 亿美元接盘。然后 2025 年 11 月,波士顿动力的前 CTO Aaron Saunders离职,加入了谷歌 DeepMind。
2026 年 1 月 CES,两家在现代汽车的发布会上宣布正式合作,目标是把 Gemini Robotics 部署到 Atlas 人形机器人上。

卖出去九年,又回来了。
哈萨比斯的说法是,谷歌不做硬件,要成为「机器人领域的 Android」,给所有机器人厂商提供大脑。
这次 ER 1.6 发布,署名了两位作者,Laura Graesser和Peng Xu。
Laura Graesser是牛津本科、NYU 硕士出身,2018 年加入 Google,2023 年至今在 DeepMind 做机器人研究,还合著过一本强化学习教科书《Foundations of Deep Reinforcement Learning》。

她早期的研究方向之一,是让机器人打乒乓球,系统需要在 100 毫秒内完成感知、计算和击球动作。

Peng Xu是 DeepMind 机器人基础模型方向的研究员,专注机器人学习与大模型的结合,不仅参与过上面的机器人打乒乓球,也是 RT-1、RT-2、Cap(Code as policy)、Gemini robotics 等一系列著名工作的作者之一。

参考链接
[ 1 ] https://deepmind.google/blog/gemini-robotics-er-1-6/
[ 2 ] https://deepmind.google/models/gemini-robotics/gemini-robotics/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
谁会代表 2026 年的 AI?
龙虾爆火,带动一波 Agent 与衍生产品浪潮。
但真正值得长期关注的 AI 公司和产品,或许不止于此。
如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/
一键关注 点亮星标
科技前沿进展每日见


