谷歌给机器人造大脑，一句话秒懂物理世界

作者 | 许丽思

编辑 | 漠影

机器人前瞻 3 月 13 日报道，今天，谷歌 DeepMind 推出两个基于 Gemini 2.0 的机器人模型：一个是VLA 模型 Gemini Robotics，可以让机器人在未经特定训练的情况理解、执行新任务；一个是VL 模型 Gemini Robotics-ER，能够增强机器人对物理世界的理解，尤其是空间推理方面。

借鉴了 Gemini 2.0 的多模态理解能力，只需要用户发出一句语音指令，Gemini Robotics 就能让机器人快速完成对环境的感知、理解以及任务执行等一系列流程，在环境交互、操作灵巧性方面也有大幅提升，在家庭、工厂等多个场景中表现出较强的适应性。

目前，谷歌 DeepMind 已在 Gemini Robotics 模型方面，和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

一、Gemini Robotics：适配多场景、本体，听懂人话、操作灵活

Gemini Robotics 体现出四大特点：

1、通用性

依托于 Gemini 2.0 的世界理解能力，Gemini Robotics 能够快速适应各种新环境、新对象以及多样化的指令。无论是在家庭、办公室还是工厂等不同场景下，Gemini Robotics 都能迅速调整自身，应对各种未曾遇到的任务挑战。与其他 VLA 模型相比，Gemini Robotics在综合泛化基准上的性能平均增加了一倍多。

比如，Gemini Robotics 可以让机器人完成打包餐盒、抓取像豌豆这样的细小物品、用海绵擦擦拭字迹等精细操作。

2、交互性

利用 Gemini 2.0 的语言理解能力，Gemini Robotics 能够理解并对不同语言表述的指令做出反应。该模型能够理解并回应比谷歌 DeepMind 之前的模型更广泛的一系列自然语言指令，并根据用户输入调整其行为。

用户要求 " 帮我把篮球扣进去篮筐中 "，机器人听懂后快速找到相应物品，完成一场 " 桌面扣篮 "。

Gemini Robotics 还会持续监测周围环境，检测环境或指令的变化，并相应地调整其动作，从而更好与人类在多种场景中进行协作。

让机器人将葡萄和香蕉放在同一个透明碗中，面对不断变换位置的碗，机器人可以准确找到目标。

3、灵巧性

Gemini Robotics 可以处理复杂的、需要精确操作的多步骤任务，比如折纸这种精细活。

4、适应不同本体

Gemini Robotics 能适应不同形态的机器人。其训练数据主要来源于双臂机器人平台 ALOHA 2，但同样能够驾驭基于 Franka 机械臂的双臂平台等其他机器人形态。对于像 Apptronik 开发的人形机器人 Apollo 这样更为复杂的形态，Gemini Robotics 也具备良好的适配性。

二、Gemini Robotics-ER：重点关注空间推理

Gemini Robotics-ER，可以帮助机器人理解复杂、动态的物理世界，尤其是空间推理方面，并允许机器人专家将其与现有的低级控制器连接。

Gemini Robotics-ER 大幅提升了 Gemini 2.0 现有的能力，比如精确指向和三维检测。通过结合空间推理和 Gemini 的编码能力，Gemini Robotics-ER 可以即时赋予机器人全新能力。例如当展示一个机器人没见过的咖啡杯时，该模型可以直观地判断出用两指抓住手柄的合适方式，以及接近它的安全轨迹。

Gemini Robotics-ER 能够执行控制机器人所需的所有步骤，包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端设置中，该模型的成功率比 Gemini 2.0高出 2 到 3 倍。在代码生成不足以解决问题的地方，Gemini Robotics-ER 甚至可以利用上下文学习的能力，按照少量人类演示的模式来提供解决方案。

▲ Gemini Robotics-ER 擅长具身推理能力，包括检测物体和指向物体部位、查找相应的点和检测 3D 物体

在安全性方面，谷歌 DeepMind 正在开发一种" 分层方法 "，且 Gemini Robotics-ER 可以与针对每个具身形式的 " 低级 " 安全关键控制器连接。在 Gemini 的核心安全功能基础上，研发团队使 Gemini Robotics-ER 模型能够理解在给定上下文中潜在动作是否安全执行，并生成适当的响应。

谷歌 DeepMind 还发布了一个新的数据集，用于评估和提高人工智能和具身智能机器人技术中的语义安全，以及开发了一个新框架来引导机器人的行为。

结语：Gemini Robotics 迈出了走向通用机器人的重要一步

多模态大模型在 AI 领域已经展现出卓越的通用能力，而要将这种能力转化应用到机器人这样的物理智能体上，依旧是一个巨大挑战。

谷歌 DeepMind 这次所发布的 Gemini Robotics 系列模型，针对机器人在物理世界的通用能力上等方面有了较大提升，也意味着在开发通用具身智能机器人的道路上迈出了重大一步。

不过团队也提到，由于 Gemini 2.0 在难以处理长视频中的空间关系，它的数值预测（如点和边界框）对于更精细的机器人控制任务来说可能不够精确。后续，团队还需要增强模型处理需要多步骤推理、精巧操作的复杂场景的能力，以及推进实现零样本跨实体形态迁移，让模型能够立即将其技能泛化到新的机器人平台上。

查看原文

宙世代

一起剪

相关标签