编译 | 江宇
编辑 | 漠影
机器人前瞻 4 月 21 日消息,谷歌 DeepMind 迎来突破性进展,其世界构建 AI 模型 Genie 2 展现了在机器人训练领域的巨大潜力。
DeepMind CEO 兼联合创始人 Demis Hassabis 向《60 分钟》节目展示了这一创新技术,强调其在创建可交互 3D 环境及加速机器人学习方面的应用前景。
Genie 2 能够从单一静态图像生成可探索的 3D 虚拟世界,为 AI 代理和机器人提供逼真的模拟环境。
在演示中,DeepMind 研究科学家 Jack Parker-Holder 展示了一张加州瀑布顶部照片,Genie 2 将其转化为类似第一人称视角的视频游戏场景。用户或 AI 代理可以在虚拟环境中自由移动,例如在瀑布顶部的水池周围行走,甚至探索原始图像中不存在的景观。
▲实机演示:Genie 2 将加州瀑布顶部的照片转化为类似视频游戏场景
Hassabis 表示,Genie 2 的 " 世界模型 " 能够动态生成环境,模拟现实世界的物理特性。这种能力使其不仅适用于娱乐领域(如生成游戏和视频),更重要的是为 AI 和机器人提供高效的训练平台。
Hassabis 强调,Genie 2 的核心目标是构建理解现实世界的模型,为机器人训练提供低成本、高效率的解决方案。传统的机器人数据采集受限于现实世界的复杂性和高成本,数据量有限且收集速度慢。
而 Genie 2 的模拟环境可以生成近乎无限的数据量,允许机器人在虚拟世界中进行初步学习,随后通过少量现实世界数据进行微调。
在一个演示中,AI 控制的骑士角色在一个由 Genie 2 生成的 3D 环境中自主完成任务,例如从三个门廊中选择正确路径并爬上楼梯。Hassabis 指出,这种技术可以让机器人在模拟环境中学习复杂任务,如导航、物体交互和决策制定,从而大幅减少对现实世界数据的依赖。
▲实机演示:AI 骑士角色在由 Genie 2 生成的 3D 环境中自主完成任务
Hassabis 透露,DeepMind 正在探索利用谷歌地图、谷歌地球和街景视图等地理数据,进一步增强 AI 的世界理解能力。这些数据可以为 AI 提供丰富的现实世界背景,帮助机器人更好地适应真实环境。
同时,Genie 2 还能将静态图像(如街景或个人度假照片)转化为交互式 3D 场景,为机器人训练和用户体验开辟新可能性。
Hassabis 还表示,未来版本的 Genie 模型将能够创建更多样化、复杂的虚拟世界,为机器人学习新技能、执行任务以及与人类和物体交互提供支持。这一技术不仅有望革新机器人开发,还可能在工业、医疗和探索等领域推动智能化应用的广泛普及。
登录后才可以发布评论哦
打开小程序可以发布评论哦