世界模型的突破会否成为具身智能的 "iPhone 时刻 "
作者/ IT 时报记者 沈毅斌
编辑/ 钱立富 孙妍
去年世界人工智能大会上," 十八金刚人形机器人先锋阵列 " 作为镇馆之宝惊艳亮相,将具身智能概念以具象化的方式呈现在公众面前。
短短一年间,人形机器人技术突飞猛进,已然习得 " 十八般武艺 " ——在擂台上,它们用矫健的身手演绎 " 武林争霸 ";在跑道上,凭借 " 金刚腿 " 完成马拉松挑战;在球场上,通过默契配合实现精准射门。每一个突破性的应用场景,都在推动具身智能技术迈向新的高度。
本届世界人工智能大会(WAIC 2025)上,镇馆之宝 "WAIC 里 · 技能大舞台 " 仍以人形机器人为主角,但它们已不再是静态展示的 " 橱窗模特 "。从优雅的舞蹈到流畅的书写,从精细地剥鸡蛋到高效地分拣收银,这些机器人正以多样化的技能仿佛在向世界宣告:具身智能时代已然来临。
但仔细观察不难发现,当前具身智能还缺少认识物理世界的 " 灵魂 " ——世界模型。这不仅是简单的感知和反应,更是对复杂环境的多维度认知和灵活应对的能力,是赋予机器类似人类智慧和情感的关键所在。
具身智能距离世界模型还有多远?世界模型的突破能否成为具身智能的 "iPhone 时刻 "?
作业智能的 " 三角矛盾 "
世界模型的灵感源于人类自然形成的心智,通过感官获取的抽象信息在大脑中被转化为对周围世界的具象理解。
比如桌上有一杯水,眼睛可以看到杯子的形状、颜色、位置,以及水的透明质感等抽象视觉信息。这些信息在大脑中处理,人们可以理解 " 这是可以拿起喝水的杯子 ",也知道放在桌子边缘可能会被碰倒,也可以用来调配饮料。这些在脑海中出现的多种可能想象,就是世界模型的作用。
" 在这过程中要做哪些可能的思考,又如何在机器人执行环节形成闭环,这是目前最大的挑战。" 智元机器人通用业务部总裁王闯在接受《IT 时报》等媒体采访时表示,智元将机器人 " 大脑 " 定义为 " 一体三智能 ",即机械本体和运动智能、交互智能、作业智能。其中,在作业智能领域,泛化率、成功率和节拍(效率)三者之间存在明显矛盾。
通常情况下,若机器人处理的事情较多,做到较高的泛化率,执行成功率便会下降;而要保证高成功率,效率又会变慢。普通老百姓往往期待这三方面都能达到较高水平,但就目前的 AI 作业智能而言,还难以实现这一目标,而这和世界模型发展密切相关。" 目前想要实现大而全的泛化能力,并不现实,更需要聚焦某一个领域去推,这样才具备商业落地的价值。" 王闯表示。
智元机器人首席运营官邱恒也曾告诉记者,人形机器人发展有三个阶段:拟人、类人、超人。目前,人形机器人还处于 " 拟人 " 到 " 类人 " 之间的阶段,想要达到 " 超人 " 这一宏伟愿景,世界模型必不可少。
在这过程中,需要打通一个个 " 小世界 "。例如,人形机器人在 4S 店做销售,既要理解产品、熟悉话术,还要给予买家情绪价值,当一个个认知贯通,便能逐渐形成对 " 销售世界 " 的理解。
交互智能方面也存在不足,当前主要通过语音转文字等方式处理输入,端到端输入技术尚不成熟。" 无论是 OpenAI,还是国内的一些企业,其开发的系统对人类的语义和情感理解都还不到位,这也是未来几年需要重点突破的方向。" 王闯说道。
让具身智能插上想象的 " 翅膀 "
" 我们希望具身智能不仅能执行指令,还要插上‘想象的翅膀’,去主动预测未来的行动,做到知行合一。" 在 " 智启具身论坛 " 上,智元机器人具身业务部总裁姚卯青发布了行业首个面向真实世界双臂机器人的世界模型开源平台 "Genie Envisioner"(简称 GE)。
据介绍,GE 平台融合了预测、控制、评测三大核心功能,能提供从视觉感知到动作执行的端到端一体化解决方案,其中有两个核心部分:一个是多视角视频扩散模型 GE-Base,另一个是 160M 参数的动作解码器 GE-Act。
GE-Base 就像机器人的 " 火眼金睛 ",通过超百万条数据 "AgiBot-World-Beta" 数据集进行训练,能精准 " 看懂 " 周围环境的空间布局、动作变化和背后意图,比如桌子上物品如何摆放、人或其他物体如何移动。GE-Act 则像机器人的 " 行动指挥官 ",能把看到的信息转化成具体动作,让机器人从 " 看懂 " 到 " 会做 "。
与以往 " 输入指令——分析指令——执行输出 " 的方式不同,GE 平台能让机器人学会自己 " 琢磨 ",先想怎么干,验证行不行,然后才动手执行,自主性和智能度都得到提升。在视频演示中,搭载 GE-Act 的机器人成功完成 " 做三明治 "" 倒茶 "" 擦桌面 "" 使用微波炉加热 "" 流水线装箱 " 等多项复杂任务,且各项成功率均超过行业平均值。
先在虚拟环境中理解世界
清华大学计算机系副研究员苏航在 " 智启具身论坛 " 上表示,未来机器人将成为人类意识的衍生,助力个人发展,深刻影响社会财富分配,其核心在于推动 AI 从数字世界走向物理世界。尽管在某些领域,人工智能已经超越人类,但当前算法仍依赖人类设计,若 AI 能自主完成自身能力的迭代与提升,将开启新的发展阶段。不过,物理世界因受规律限制且存在复杂关系,AI 在其中的应用难度远高于数字世界。
苏航认为,需要结合多模态,通过外部交互来加速机器人理解世界,当前则要聚焦泛化能力等核心问题。
在数据与泛化实践方面,苏航表示,过去两年数据集虽快速发展,但部分任务数据仍较少,即使是利用互联网数据,也在安全、真实性等方面存在局限。仿真数据能弥补真实数据的不足,结合强化学习可以提升具身智能的感知与操作稳定性,例如,定点抓取仅需 50 ~60 个数据,而在更广泛、不固定的空间范围内抓取,这时采集数据量就要翻上几十倍,便可通过仿真策略来弥补。
那么,仿真数据从何而来?
商汤在本届 WAIC 2025 大模型论坛上发布 " 悟能 " 具身智能平台,其核心是 " 开悟 " 世界模型,可以从感知理解、视觉导航、多模态交互、决策规划和硬件适配等领域,辅助具身智能理解世界。
据商汤介绍,开悟世界模型背后是商汤积累的 10 万 3D 资产,以此为基础支持多视角视频生成,最多能同时生成 11 个摄像头角度的视频,还能同时处理人、物、场,构建一个 4D 的真实世界,让仿真数据更加全面、立体,帮助具身智能更好地理解环境和物体的关系。
这个世界包含第一和第三视角,可以让机器人同时看到," 自己看到的场景 " 和 " 人类示范动作 ",既让模型能基于自身感知进行训练,也能学习人类示范动作,减少遥操作数据量,提高跨机器人、跨场景的泛化能力,使仿真数据更具实用性和高效性。
排版/ 季嘉颖
图片/ IT 时报 WAIC
来源/《IT 时报》公众号 vittimes
E N D
登录后才可以发布评论哦
打开小程序可以发布评论哦