雷锋网 昨天
UT Austin朱玉可:人形机器人的数据困局怎么破?答案藏在「数据海绵」里
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

  2026 年 6 月 3 日,在 ICRA 2026 大会的主题演讲环节,德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR 团队负责人朱玉可(Yuke Zhu)发表了关于人形机器人基础模型的最新演讲。他在演讲中系统性地拆解了当前人形机器人面临的最大瓶颈——数据,并提出了以 " 数据金字塔 " 为框架、以 " 世界模型 " 为引擎的规模化路径。

朱玉可指出,人形机器人正在进入一个全新的加速阶段:硬件日益成熟,学习算法和基础模型的规模化也在快速推进。但真正制约这一领域从 Demo 走向大规模部署的,仍然是数据。真实机器人数据质量最高但极其稀缺,仿真数据可以无限生成但存在仿真到真实的鸿沟。

为此,他提出了一个三层数据金字塔策略:底层是海量但被动的互联网人类视频数据,中层是可无限生成的合成数据,顶层是真实机器人数据。

他的核心观点是:不应押注单一数据源,而应以异质方式汇集三种数据,同时让世界模型扮演 " 数据海绵 " 的角色,吸收并整合所有类型的数据。

在具体实践中,朱玉可展示了两个典型案例:一是 SONIC ——利用大规模人类动作捕捉数据训练人形机器人全身控制器,通过运动跟踪目标大幅简化了强化学习的奖励函数设计,实现万小时级别的规模化训练;二是 EgoScale ——从第一人称视角的人类视频中学习,通过 " 预训练获取人类知识→对齐训练压缩知识→后训练表达知识 " 的三阶段方案,使得机器人仅需不到 1% 的真实机器人数据就能完成复杂操作任务。

整场演讲最令人振奋的结论,来自 DreamZero 世界动作(World Action Model,WAM)模型:通过将视频生成模型转化为动作生成器,纯 AI 生成的虚拟轨迹在训练价值上几乎 100% 等效于真实物理数据。

朱玉可最后强调,要推动整个领域前进,开源和开放是不可或缺的。NVIDIA 已开源 GR00T 基础模型、Isaac 仿真框架及相关数据集,并刚刚发布了首个 H2 Plus 参考平台。

以下是朱玉可在 ICRA 2026 大会发表的演讲精编稿,雷峰网 ( 公众号:雷峰网 ) 基于原英文演讲内容进行了不改原意的翻译编辑:

人形机器人正在进入新时代

我今天要讲的是人形机器人和基础模型。先给一个总结:我认为我们正在进入人形机器人技术的一个全新时代。硬件越来越强大,学习算法、基础模型的规模化也越来越可行。

但我必须说,最大的挑战、或许同时也是最大的机遇,仍然摆在我们面前。

" 打造自主的、类人的机器人 " 这个梦想,已经让人类着迷了数百年。机器人这个词最早出自 1920 年卡雷尔 · 恰佩克的戏剧,名字就叫《罗素姆的万能机器人》。从一开始,人们就把机器人想象成类人的通用工作者,而不是为特定用途定制的机器。

回顾人形机器人的发展历程,我们看到一波又一波的炒作周期:从七八十年代论证技术可行性的概念验证系统,到那些最终没有实现大规模商业成功的愿景原型,再到社交伴侣机器人。大约十年前,DARPA 机器人挑战赛给我们泼了一盆冷水,清楚揭示了即使在人类监督下,让机器人进入实际使用有多么困难。直到现在,没有任何一款人形机器人实现了大规模、快速的部署。

但在 2022 年左右,我们开始看到一场 " 人形机器人爆炸 "。各大公司、初创企业、研究机构都在制造越来越强大的机器人。我认为这在很大程度上是由 AI 和基础模型、大语言模型的进步所驱动的。今天,我会展示我们最新的研究成果,我的目标是让你们看到:我们有理由保持乐观,因为进步是扎实的。

但同时我也要非常坦诚:还没有人找到终极配方。这正是投入这个领域的最佳时机。

GR00T 架构:系统二 + 系统一 + 全身控制

大约两年前,我有幸在英伟达领导一支人形机器人研究团队。2024 年 3 月 GTC 大会上,黄仁勋走上台宣布了 GR00T 项目。这是一个为构建人形机器人全栈解决方案的计划。GR00T-1 是我们推出的第一个开源人形基础模型。

整体架构采用了一种双层设计。系统二是一个视觉语言模型,接收图像和语言指令作为输入,生成动作 token;这些 token 传递给系统一,即扩散 Transformer,生成闭环动作供机器人执行。整个模型可以端到端训练。

但在实践中,当你需要控制一个超过四五十个自由度的系统时,通常还需要一个用强化学习训练的全身控制器,将基础模型产生的高级指令转化为每个关节的最终执行动作。预训练模型赋予机器人泛化能力,使其能够遵循不同的语言指令,对不同物体和任务目标执行任务。模型还可以进一步进行后训练,执行更复杂的操作。

在我们最新的 GR00T 迭代版本 N1.7 中,我们尝试解锁机器人的整个运动学范围,通过全身运动操作完成任务。这个模型仅用几十个演示进行后训练,就能完成复杂的工业流程任务。

你们可能已经在这几天的海报展示中多次听到:数据,仍然是规模化提升机器人能力的核心瓶颈。

数据金字塔:异质数据的规模化策略

大约几年前,我提出了一个 " 数据金字塔 " 的概念,它清楚说明了我们的数据策略:我们不会只依赖单一数据源来扩展,而是要大规模地汇集异质数据源。

我把数据源组织成三层:

与其只依赖一种数据源,我们的大量研究都致力于如何有效利用整个数据金字塔。今天我想把重点放在金字塔的最底层,人类数据。

我认为人类数据是目前最具可扩展性的数据来源。互联网以人为中心,捕捉了我们世界的样子、人类的行为方式、日常任务和日常生活。而人形机器人可能是消费这类数据最自然的形态,因为形态差距更小。

具体来说,我们探索了两种人类数据形式:人类动作捕捉数据和第一人称视角的人类视频。

SONIC:用人类动捕训练全身控制器

对于人类动作捕捉数据,我们在一个叫 SONIC 的工作中探索用它训练通用的人形全身控制器。核心思路是:首先将人类运动重定向到特定人形机器人的形态上,生成对应的动捕数据库,然后将运动跟踪作为强化学习的训练目标。

这种组合极大简化了奖励函数的设计,从而使规模化强化学习训练成为可能。做大规模的事情时,简洁往往带来更好的可扩展性。

我们在三个维度上扩展了模型训练:参数量从 120 万提升到 4200 万,这个规模足够强大,但依然小到可以部署在机器人本体的 NVIDIA Jetson 上;数据量达到 1 亿帧,总计超过 10700 小时的人类动捕数据;训练使用了 9000 个 GPU 小时,每个 GPU 运行自己的物理仿真副本,合计相当于数千年的真实机器人经验。

SONIC 的关键在于动作的自然流畅度,这主要来自运动跟踪目标,让模型更好地模仿人类运动。这个模型可以接受遥操作、基础模型输出、甚至人类视频作为高级指令。我们已将其部署在宇树 G1 机器人上,训练代码、部署框架和数据集完全开源。

EgoScale:第一人称视角视频的三阶段训练

我们感兴趣的第二种数据形式,是第一人称视角的人类视频。

这类视频提供了一个窗口,让我们观察人类日常活动中丰富的多样性和复杂性。在最近的工作 EgoScale 中,我们跟踪人类手腕和手指在三维空间中的运动,也就是说把人想象成一个机器人,头部运动就是动作空间,如此将第一人称视角视频转化为训练数据。

EgoScale 的训练方案由三个阶段组成:第一阶段仅在人类视频上预训练,从第一人称视角视角预测手部运动;第二阶段在配对的人机数据上对齐表征,使知识从人类领域迁移到机器人领域;第三阶段用少量真实机器人数据精调模型。

用概念框架来理解:预训练阶段是 " 获取人类知识 ",从视频中收获常识和物理知识;对齐训练阶段是 " 压缩知识 ",从人类领域压缩到机器人领域;后训练阶段是 " 表达知识 ",利用积累的知识解决具体任务。

这项工作最让我兴奋的是,模型对更多人类视频数据有着巨大的胃口。当我们将视频数据从 1000 小时扩展到 20000 小时,模型性能稳步提升,呈现出近乎完美的对数线性关系,意味着继续投入数据,性能还会持续提升。

真正的 " 魔法 " 来自预训练,预训练得越好,后训练所需数据就越少。这就是我们的规模化方案:绝大部分数据来自人类数据,不到 1% 来自真实机器人。

世界模型即 " 数据海绵 "

在演讲剩余的时间里,我要讲讲 " 海绵 " 的故事。我所说的海绵,是世界模型。世界模型像海绵,因为它有一种神奇的能力,可以吸收数据金字塔中各种类型的数据。

它可以从互联网视频中学习,获取常识和物理知识、语义知识和程序性知识;可以从合成数据中学习,受益于控制多样性;可以从真实机器人轨迹中学习,精化特定任务的表征;可以从多模态数据、音频数据中学习。也许最重要的是,可以从失败数据中学习,这类数据对策略改进非常有用。

DreamZero:世界动作模型

我们在 DreamZero 工作中探索了这个想法,用世界模型构建下一代 NVIDIA 基础模型。核心是 " 世界动作模型 ",想象视频生成模型如何工作:从初始帧开始,从一个带噪声的视频出发,逐步去噪,生成清晰视频。在大规模互联网数据上训练这样的模型,它能捕捉相当多的物理理解。然后在机器人数据上微调,告诉模型机器人应该长什么样、应该如何运动。

关键创新在于,我们不仅让模型生成未来画面,还增加一个扩散通道同步生成动作。测试时我们丢弃未来帧预测,只提取动作执行。仅通过视频生成模型或世界模型,就能显著增强视角泛化能力和行为克隆的样本效率。

这是我第一次在公开场合展示这些结果。训练 GR00T 基础模型执行复杂任务,展示了闭环策略学习和反应式恢复行为。如果你从事机器人研究足够久,会认出这个 YCB 数据集中的物体。十年前我看到它时,觉得绝不可能用机器人完成这样的装配任务。但现在,有了基础模型,这已经变成可能了。而且是在一天之内完成的,无需任何人工干预。

我对过去两年取得的进展感到兴奋,社区中的加速非常惊人。但也很容易看到,还有大量工作需要做,我们需要更广泛的研究社区参与。这也是为什么我个人非常坚定地看好开源。

无论是在 UT Austin 的实验室,还是我在英伟达的团队,我们都尽可能开放开源基础模型、开源仿真框架,比如 Isaac、开源数据集和基准。

就在这个星期一,我们刚刚宣布了首个 H2 Plus 参考平台。打造人形机器人的梦想已经让我们着迷了超过一百年。但最终,我看到各种技术要素正在汇聚,让我们真正有可能实现这个梦想。我邀请在座各位一起加入,共同将这个梦想变为现实。

Q&A 问答环节

听众:请问您如何让这些基础模型在特定领域内达到 90% 的成功率,实现更高的可复现性和可靠性?

朱玉可:这是一个非常好的问题。如果你看过大语言模型是如何训练的,就会知道预训练只是训练的第一阶段。在机器人领域,后训练和对齐同样关键。你需要针对特定任务场景,用高质量的领域数据进行精调。同时,可复现性需要严格的评估基准和标准化的测试协议,这一点我们在 YCB 等基准工作的基础上还需要持续推进。总的来说,预训练给你泛化的底座,后训练给你领域的深度,两者缺一不可。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 nvidia 雷峰网 开源 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论