智东西 03-13
谷歌给机器人造大脑,一句话秒懂物理世界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 许丽思

编辑 | 漠影

机器人前瞻 3 月 13 日报道,今天,谷歌 DeepMind 推出两个基于 Gemini 2.0 的机器人模型:一个是VLA 模型 Gemini Robotics,可以让机器人在未经特定训练的情况理解、执行新任务;一个是VL 模型 Gemini Robotics-ER,能够增强机器人对物理世界的理解,尤其是空间推理方面。

借鉴了 Gemini 2.0 的多模态理解能力,只需要用户发出一句语音指令,Gemini Robotics 就能让机器人快速完成对环境的感知、理解以及任务执行等一系列流程,在环境交互、操作灵巧性方面也有大幅提升,在家庭、工厂等多个场景中表现出较强的适应性。

目前,谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

一、Gemini Robotics:适配多场景、本体,听懂人话、操作灵活

Gemini Robotics 体现出四大特点:

1、通用性

依托于 Gemini 2.0 的世界理解能力,Gemini Robotics 能够快速适应各种新环境、新对象以及多样化的指令。无论是在家庭、办公室还是工厂等不同场景下,Gemini Robotics 都能迅速调整自身,应对各种未曾遇到的任务挑战。与其他 VLA 模型相比,Gemini Robotics在综合泛化基准上的性能平均增加了一倍多。

比如,Gemini Robotics 可以让机器人完成打包餐盒、抓取像豌豆这样的细小物品、用海绵擦擦拭字迹等精细操作。

2、交互性

利用 Gemini 2.0 的语言理解能力,Gemini Robotics 能够理解并对不同语言表述的指令做出反应。该模型能够理解并回应比谷歌 DeepMind 之前的模型更广泛的一系列自然语言指令,并根据用户输入调整其行为。

用户要求 " 帮我把篮球扣进去篮筐中 ",机器人听懂后快速找到相应物品,完成一场 " 桌面扣篮 "。

Gemini Robotics 还会持续监测周围环境,检测环境或指令的变化,并相应地调整其动作,从而更好与人类在多种场景中进行协作。

让机器人将葡萄和香蕉放在同一个透明碗中,面对不断变换位置的碗,机器人可以准确找到目标。

3、灵巧性

Gemini Robotics 可以处理复杂的、需要精确操作的多步骤任务,比如折纸这种精细活。

4、适应不同本体

Gemini Robotics 能适应不同形态的机器人。其训练数据主要来源于双臂机器人平台 ALOHA 2,但同样能够驾驭基于 Franka 机械臂的双臂平台等其他机器人形态。对于像 Apptronik 开发的人形机器人 Apollo 这样更为复杂的形态,Gemini Robotics 也具备良好的适配性。

二、Gemini Robotics-ER:重点关注空间推理

Gemini Robotics-ER,可以帮助机器人理解复杂、动态的物理世界,尤其是空间推理方面,并允许机器人专家将其与现有的低级控制器连接。

Gemini Robotics-ER 大幅提升了 Gemini 2.0 现有的能力,比如精确指向和三维检测。通过结合空间推理和 Gemini 的编码能力,Gemini Robotics-ER 可以即时赋予机器人全新能力。例如当展示一个机器人没见过的咖啡杯时,该模型可以直观地判断出用两指抓住手柄的合适方式,以及接近它的安全轨迹。

Gemini Robotics-ER 能够执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端设置中,该模型的成功率比 Gemini 2.0高出 2 到 3 倍。在代码生成不足以解决问题的地方,Gemini Robotics-ER 甚至可以利用上下文学习的能力,按照少量人类演示的模式来提供解决方案。

▲ Gemini Robotics-ER 擅长具身推理能力,包括检测物体和指向物体部位、查找相应的点和检测 3D 物体

在安全性方面,谷歌 DeepMind 正在开发一种" 分层方法 ",且 Gemini Robotics-ER 可以与针对每个具身形式的 " 低级 " 安全关键控制器连接。在 Gemini 的核心安全功能基础上,研发团队使 Gemini Robotics-ER 模型能够理解在给定上下文中潜在动作是否安全执行,并生成适当的响应。

谷歌 DeepMind 还发布了一个新的数据集,用于评估和提高人工智能和具身智能机器人技术中的语义安全,以及开发了一个新框架来引导机器人的行为。

结语:Gemini Robotics 迈出了走向通用机器人的重要一步

多模态大模型在 AI 领域已经展现出卓越的通用能力,而要将这种能力转化应用到机器人这样的物理智能体上,依旧是一个巨大挑战。

谷歌 DeepMind 这次所发布的 Gemini Robotics 系列模型,针对机器人在物理世界的通用能力上等方面有了较大提升,也意味着在开发通用具身智能机器人的道路上迈出了重大一步。

不过团队也提到,由于 Gemini 2.0 在难以处理长视频中的空间关系,它的数值预测(如点和边界框)对于更精细的机器人控制任务来说可能不够精确。后续,团队还需要增强模型处理需要多步骤推理、精巧操作的复杂场景的能力,以及推进实现零样本跨实体形态迁移,让模型能够立即将其技能泛化到新的机器人平台上。

查看原文

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 机器人 物理 deepmind 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论