量子位 5小时前
英伟达开始搞机器人自己研究机器人那套了…
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

henry 发自 凹非寺
量子位 | 公众号 QbitAI

好好好,又给英伟达这家伙,找到了新的烧 token 的方式(doge)

刚刚,英伟达、CMU 和 Berkeley 联合推出具身智能 Autoresearch 框架——

ENPIRE

简单来说,ENPIRE 就是让 AI agent 自己做机器人研究,让 8 个 Coding Agent,各自控制一台双臂机器人。

Agent 们会自己读论文、改算法、训练策略、部署实验、分析结果、总结经验,不满意再换个思路重来。

GEAR 的研究员们不用盯着屏幕调参数,只需要第二天早上过来看报告。

在最具代表性的 Pin Insertion 任务中,仅用了 3 小时,机器人把针插进 4 毫米孔洞的成功率从 0 一路拉到 99%。

全程无人类参与,项目负责人之一的Jim Fan发推说:

GEAR 实验室的一部分现在已经在彻夜自我改进了。我们只需要早上来读报告。

不过也有网友表示:

高情商:彻夜自我改进;低情商:没日没夜的烧 token。

具身智能研究的 harness

先说明一点,ENPIRE 并不是让 Agent 直接写控制代码操纵机器人,它更像一个机器人研究员,需要在真实世界里重置实验场景、检索文献、实施想法、验证结果、分析问题,优化下一轮迭代。

与类似 code as policy 的方法不同,ENPIRE 的最终产物的不是一段控制脚本,而是一个真正能够部署到机器人上的 Policy。

这种给现实环境搭建自动化框架的事儿,之所以难是因为现实世界不像代码世界。

在代码世界,Agent 写错代码了,大不了删掉重来;实验跑崩了,重新启动即可。

但机器人研究不一样,实验失败之后,物体会歪掉,场景会乱掉,机器人甚至可能把东西碰飞。

如果每轮实验都要靠研究员手动复位、记录结果、整理数据,那么 Agent 根本不可能 24 小时连续做研究。

所以 ENPIRE 做的事情,本质上是给 AI 研究员搭建一套自动化实验台。

论文里把它称为Harness Framework

可以理解为,它给 Coding Agent 配齐了一整套做物理实验所需的基础设施。

这套基础设施由四部分组成,也正好对应 ENPIRE 这个名字:

EN(Environment)环境模块:负责搭建实验环境,包括安全边界、自动复位和自动评分。

PI(Policy Improvement)策略改进:Agent 根据任务目标提出新方案。行为克隆、强化学习、启发式规则,甚至几种方法混搭,全都可以尝试。

R(Rollout)——部署测试:把新策略部署到真实机器人上执行,记录轨迹、视频和传感器信号。

E(Evolution)——进化: 多 Agent 协作的核心。8 个 Agent 各自占用一台机器人,通过 Git 共享代码,互相吸收有效方案,淘汰失败路线。

四个模块连起来之后,就形成了一个完整闭环:

提出想法 → 训练策略 → 真机测试 → 自动评分 → 总结经验 → 再提出新想法。

整个过程不需要人工值守,Agent 自己负责做实验,也自己负责从实验里学习。

而其中最关键的一环,其实是 Environment 模块。因为它解决的是具身智能研究里最令人头疼的问题:

怎么让实验自动跑起来。

在仿真环境里,复位往往只需要一句:env.reset ( )

但现实世界没有 env.reset ( ) 。

一次失败实验结束之后,机器人必须先把场景恢复到初始状态,下一轮实验才能开始。

以 GPU 插拔任务为例,机器人需要先把 GPU 从主板上拔出来,再移动到指定位置释放,然后退回初始状态。

整个过程涉及复杂的力控操作,因为稍有不慎就可能损坏 GPU 针脚。

自动评分同样如此。

例如扎带穿扎任务中,Agent 需要判断:" 扎带尾巴到底有没有成功穿过扎带头?"

为了回答这个问题,Agent 甚至自己设计了一套视觉检测方案。

顶部和侧面两个摄像头同时观察目标区域,各自进行图像分割;只有当两个视角都确认扎带尾端已经穿过扎带头,系统才会判定实验成功。

整个检测延迟被压缩到 150 毫秒以内,已经接近人类视觉反应速度。

这些自动复位、自动评分、安全控制接口一旦调通,就会被固化为标准 API。

后续 Agent 做研究时,不再需要关心底层实验流程。

由此,真实世界终于第一次变成了一个可以被反复调用、持续优化的研究环境。

好的 agent 不比研究员差

当然,光有实验平台还不够。真正有意思的问题是:

当你把机器人、GPU 和 Token 都准备好之后,Agent 到底会不会做研究?

ENPIRE 给出的答案是:会,而且还挺像那么回事。

如开头所说,论文在四个高难度灵巧操作任务上进行了验证:

Push-T(推动 T 形积木到目标位置)、Pin Insertion(把针插进 4 毫米孔洞)、GPU Insertion(把 GPU 插进主板插槽)以及 Zip-tie(扎带穿扎与剪切)。

最终四个任务全部达到了 99% 的成功率。

但比结果更有意思的,是 Agent 达到这个结果的过程,最典型的是 Pin Insertion 任务。

论文直接公开了 Agent 的 Idea Tree,也就是它完整的研究思路演化过程。

从中可以清楚看到一条非常熟悉的研究路径:

先试行为克隆(Behavior Cloning),效果一般;

加入在线强化学习数据,性能开始提升;

再增加正则化项,成功率出现明显跃升;

随后继续调整 Batch Size,补偿控制器延迟,进一步提升稳定性。

整个过程中,Agent 就跟人类研究员一样,一步一步往上试,一路把成功率从接近零推到接近 100%。

整个过程中,没有人类告诉它应该加什么模块,也没有人类规定实验顺序。

所有方案都来自 Agent 自己提出的假设,再通过真实实验验证。

如果把这些记录隐藏起来,只看研究过程,很难说这和一个机器人博士生在实验室里做研究有什么本质区别。

更有意思的是,Agent 甚至会根据任务特点主动改变研究路线。

在 Zip-tie 任务中,它很快发现端到端训练效果并不好。

原因很简单,因为这个任务实在太长了:

找到剪刀 → 抓起剪刀 → 找到扎带 → 对准位置 → 完成剪切。

整个操作链跨越多个阶段,单纯依赖端到端策略很难学好,于是 Agent 自己换了一条路线。

先利用 VLA 模型(Vision-Language-Action)完成粗定位,再调用工具 API 执行精细操作。

某种程度上,它甚至自己做了一次系统架构设计。

如果要找一个最直接的参照物,其实就是 Karpathy 前段时间提出的 Autoresearch。

两者本质上都在做同一件事:让 AI 自动提出想法、运行实验、比较结果,再根据结果继续迭代。

区别在于,Autoresearch 发生在数字世界。代码写崩了可以重来,实验跑错了可以重启。

算力几乎是唯一成本,而 ENPIRE 第一次把这套研究循环搬进了物理世界,机器人不是代码。

你没法对一台撞坏的机械臂执行 Git Revert,真实世界里,摩擦力在变化,物体位置在变化,光照在变化,传感器也会产生噪声。

ENPIRE 的核心价值,就是通过自动复位、自动评分和安全控制接口,把原本混乱的物理世界包装成 Agent 能够反复调用的实验环境。

对于 Agent 来说,真实世界第一次拥有了类似软件开发环境的可迭代性。

另一个有意思的发现,是所谓的「物理 Scaling」。

过去大模型 Scaling 的是参数、数据和算力,ENPIRE 开始 Scaling 实验数量。

论文里,8 个 Agent 分别占用 8 台机器人,同时探索不同路线。

结果 Pin Insertion 任务达到目标成功率的时间,从单机器人模式下的 1.5 小时缩短到 40 分钟。

换句话说,如果过去的大模型是在扩展 GPU 集群,那么 ENPIRE 扩展的则是机器人舰队。

当然,这种 Scaling 并不便宜。

随着 Agent 数量增加,每个 Agent 都需要阅读其他 Agent 的代码、理解别人的发现、总结经验并同步知识。

因此 Token 消耗增长得比机器人数量更快,论文甚至专门提出两个指标来衡量这种代价:

Mean Robot Utilization:机器人有多少时间真正用于实验;

Mean Token Utilization:系统每分钟究竟烧掉多少 Token。

看到这里,大概也能理解为什么 Jim Fan 会这么兴奋。因为他们发现,研究本身似乎也开始具备了可扩展性。

甚至连经验传承都出现了,论文里有个很有意思的实验:

Agent 在 Pin Insertion 任务中积累的经验,被整理成一份文字总结,然后直接塞进 GPU Insertion 任务的 Prompt 里。

结果后续研究效率明显提升,注意,这里迁移的既不是模型权重,也不是训练数据。

而是一份研究笔记,和人类实验室传帮带时做的事情,几乎一模一样。

大平行的最后一块拼图

今年 5 月,Jim Fan 在红杉资本 AI Ascent 大会上做了一个演讲,提出了大平行(The Great Parallel)框架:机器人领域正在加速重走大语言模型走过的路。

如果加上最新的自主研究,语言模型正在经历四个阶段——预训练、对齐微调、强化学习推理、自主研究。

机器人也在走同样的四步,只不过每一步的介质从文本变成了物理世界。

前三步英伟达已经有了对应的布局:预训练阶段有 EgoScale(用两万小时人类第一视角视频训练运动先验)和 DreamZero ——一种全新的世界动作模型(WAM),用视频世界模型预测下一物理状态,替代语言模型预测下一 token;对齐阶段用少量传感化人类数据做动作微调;

强化学习阶段有 Dream Dojo ——一个纯神经仿真器,不用物理引擎,直接用视频世界模型生成模拟环境,机器人在 " 梦境 " 里做 RL。

但第四步——自主研究——在物理世界一直没有可执行的实现。ENPIRE 就是这一步。

一作肖文力(Wenli Xiao)在推特上写道:

Autoresearch 终于离开了沙盒,进入了具身世界。

肖文力是 CMU 机器人系博士生,导师是石冠亚(Guanya Shi),此前在英伟达 GEAR 实验室实习了两年。这篇论文的四位共同一作。

肖文力、谢佳(Jia Xie)、Tonghe ZhangHaotian Lin,全部来自 CMU,三位共同指导教师分别是范麟熙(Jim Fan)、朱玉可(Yuke Zhu)(均来自英伟达)和石冠亚(CMU)。

Jim Fan 在推特上对 ENPIRE 的描述大概是整篇论文最有画面感的概括:

我们给 8 个 Codex agent 一个机器人舰队、一批 GPU 和充足的 token 预算。然后人类退场。机器人舰队开始活过来:它们学会寻找视觉线索,重置场景,练习新技能,修改控制栈,在线读论文,辩论,反思,卡壳,再直接在硬件上重试。我们所做的一切,就是给 Codex 一个通往原子世界的 API。剩下的是涌现。

ENPIRE 将全部开源。理论上,每个人也可以搭建自己的 " 自运行机器人实验室 "。

前提是你得买得起那 8 台机器人、英伟达的 GPU,以及跑 coding agent 的 token。

[ 1 ] https://x.com/_wenlixiao/status/2066913196641071464

[ 2 ] https://research.nvidia.com/labs/gear/enpire/#fleet-scaling

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论