谷歌重塑物理 AI 智能体：赋予机器人“大脑”和“身体”

IT 之家 9 月 26 日消息，谷歌 DeepMind 团队昨日（9 月 25 日）发布博文，宣布推出 Gemini Robotics 1.5 与 Gemini Robotics-ER 1.5 两款专为物理世界设计的 AI 新模型，旨在打造能够感知、规划、思考并行动的物理智能体。

IT 之家援引博文介绍，这两款模型协同工作，致力于让通用型机器人能够更高效地解决现实世界中的复杂多步任务，新系统采用了一种创新的 " 大脑 - 身体 " 协作框架。

其中，Gemini Robotics-ER 1.5 模型扮演着 " 高层大脑 " 的角色，它精通物理环境中的规划与决策，拥有业界领先的空间理解能力。

例如，当机器人被要求 " 根据我所在地的规定，将这些物品分类到正确的垃圾箱 " 时，ER 1.5 会主动上网搜索本地垃圾分类指南，然后制定详细的执行计划。

随后，" 大脑 " 会将计划分解为一步步的自然语言指令，传递给扮演 " 身体 " 角色的 Gemini Robotics 1.5 模型。

这是一个视觉 - 语言 - 行动（VLA）模型，它负责接收指令，并将其直接转化为机器人的具体运动指令。这一流程不仅实现了高效分工，还让机器人的行动逻辑更加清晰。

Gemini Robotics 1.5 的一项核心突破是具备 " 先思考后行动 " 的能力。在执行任务前，它能以自然语言生成一套内部推理与分析序列，从而更好地理解任务的深层语义。

例如，在执行 " 按颜色对衣物分类 " 任务时，模型会先思考 " 白色衣服放入白桶，其他颜色放入黑桶 "，然后再规划 " 拿起红色毛衣放入黑桶 " 的具体步骤。这种能力不仅提升了任务成功率，还让其决策过程更加透明，机器人甚至能解释自己的行为逻辑。

Gemini Robotics 1.5 展现了卓越的跨机器人形态学习能力。传统上，为一个机器人学习的动作很难直接迁移到另一个形态不同的机器人上。

而新模型打破了这一限制，它将在某个机器人（如 ALOHA 2）上学到的技能，成功迁移至外形和自由度完全不同的机器人（如 Apollo 人形机器人和 Franka 双臂机器人）上，无需针对新型号进行专门训练，从而极大地加速了新技能的学习和部署。

谷歌强调，在发展 embodied AI（具身人工智能）潜力的同时，公司正积极构建新的安全与对齐方法。Gemini Robotics 1.5 实施了一套整体安全策略，包括行动前思考安全、遵循现有安全政策以及在必要时触发机器人内置的低级安全子系统。

Gemini Robotics-ER 1.5 目前已通过 Gemini API 向开发者开放，而 Gemini Robotics 1.5 则提供给部分合作伙伴使用。

宙世代