英伟达开始搞机器人自己研究机器人那套了…

henry 发自凹非寺
量子位 | 公众号 QbitAI

好好好，又给英伟达这家伙，找到了新的烧 token 的方式（doge）

刚刚，英伟达、CMU 和 Berkeley 联合推出具身智能 Autoresearch 框架——

ENPIRE。

简单来说，ENPIRE 就是让 AI agent 自己做机器人研究，让 8 个 Coding Agent，各自控制一台双臂机器人。

Agent 们会自己读论文、改算法、训练策略、部署实验、分析结果、总结经验，不满意再换个思路重来。

GEAR 的研究员们不用盯着屏幕调参数，只需要第二天早上过来看报告。

在最具代表性的 Pin Insertion 任务中，仅用了 3 小时，机器人把针插进 4 毫米孔洞的成功率从 0 一路拉到 99%。

全程无人类参与，项目负责人之一的Jim Fan发推说：

GEAR 实验室的一部分现在已经在彻夜自我改进了。我们只需要早上来读报告。

不过也有网友表示：

高情商：彻夜自我改进；低情商：没日没夜的烧 token。

具身智能研究的 harness

先说明一点，ENPIRE 并不是让 Agent 直接写控制代码操纵机器人，它更像一个机器人研究员，需要在真实世界里重置实验场景、检索文献、实施想法、验证结果、分析问题，优化下一轮迭代。

与类似 code as policy 的方法不同，ENPIRE 的最终产物的不是一段控制脚本，而是一个真正能够部署到机器人上的 Policy。

这种给现实环境搭建自动化框架的事儿，之所以难是因为现实世界不像代码世界。

在代码世界，Agent 写错代码了，大不了删掉重来；实验跑崩了，重新启动即可。

但机器人研究不一样，实验失败之后，物体会歪掉，场景会乱掉，机器人甚至可能把东西碰飞。

如果每轮实验都要靠研究员手动复位、记录结果、整理数据，那么 Agent 根本不可能 24 小时连续做研究。

所以 ENPIRE 做的事情，本质上是给 AI 研究员搭建一套自动化实验台。

论文里把它称为Harness Framework。

可以理解为，它给 Coding Agent 配齐了一整套做物理实验所需的基础设施。

这套基础设施由四部分组成，也正好对应 ENPIRE 这个名字：

EN（Environment）环境模块：负责搭建实验环境，包括安全边界、自动复位和自动评分。

PI（Policy Improvement）策略改进：Agent 根据任务目标提出新方案。行为克隆、强化学习、启发式规则，甚至几种方法混搭，全都可以尝试。

R（Rollout）——部署测试：把新策略部署到真实机器人上执行，记录轨迹、视频和传感器信号。

E（Evolution）——进化：多 Agent 协作的核心。8 个 Agent 各自占用一台机器人，通过 Git 共享代码，互相吸收有效方案，淘汰失败路线。

四个模块连起来之后，就形成了一个完整闭环：

提出想法 → 训练策略 → 真机测试 → 自动评分 → 总结经验 → 再提出新想法。

整个过程不需要人工值守，Agent 自己负责做实验，也自己负责从实验里学习。

而其中最关键的一环，其实是 Environment 模块。因为它解决的是具身智能研究里最令人头疼的问题：

怎么让实验自动跑起来。

在仿真环境里，复位往往只需要一句：env.reset ( )

但现实世界没有 env.reset ( ) 。

一次失败实验结束之后，机器人必须先把场景恢复到初始状态，下一轮实验才能开始。

以 GPU 插拔任务为例，机器人需要先把 GPU 从主板上拔出来，再移动到指定位置释放，然后退回初始状态。

整个过程涉及复杂的力控操作，因为稍有不慎就可能损坏 GPU 针脚。

自动评分同样如此。

例如扎带穿扎任务中，Agent 需要判断：" 扎带尾巴到底有没有成功穿过扎带头？"

为了回答这个问题，Agent 甚至自己设计了一套视觉检测方案。

顶部和侧面两个摄像头同时观察目标区域，各自进行图像分割；只有当两个视角都确认扎带尾端已经穿过扎带头，系统才会判定实验成功。

整个检测延迟被压缩到 150 毫秒以内，已经接近人类视觉反应速度。

这些自动复位、自动评分、安全控制接口一旦调通，就会被固化为标准 API。

后续 Agent 做研究时，不再需要关心底层实验流程。

由此，真实世界终于第一次变成了一个可以被反复调用、持续优化的研究环境。

好的 agent 不比研究员差

当然，光有实验平台还不够。真正有意思的问题是：

当你把机器人、GPU 和 Token 都准备好之后，Agent 到底会不会做研究？

ENPIRE 给出的答案是：会，而且还挺像那么回事。

如开头所说，论文在四个高难度灵巧操作任务上进行了验证：

Push-T（推动 T 形积木到目标位置）、Pin Insertion（把针插进 4 毫米孔洞）、GPU Insertion（把 GPU 插进主板插槽）以及 Zip-tie（扎带穿扎与剪切）。

最终四个任务全部达到了 99% 的成功率。

但比结果更有意思的，是 Agent 达到这个结果的过程，最典型的是 Pin Insertion 任务。

论文直接公开了 Agent 的 Idea Tree，也就是它完整的研究思路演化过程。

从中可以清楚看到一条非常熟悉的研究路径：

先试行为克隆（Behavior Cloning），效果一般；

加入在线强化学习数据，性能开始提升；

再增加正则化项，成功率出现明显跃升；

随后继续调整 Batch Size，补偿控制器延迟，进一步提升稳定性。

整个过程中，Agent 就跟人类研究员一样，一步一步往上试，一路把成功率从接近零推到接近 100%。

整个过程中，没有人类告诉它应该加什么模块，也没有人类规定实验顺序。

所有方案都来自 Agent 自己提出的假设，再通过真实实验验证。

如果把这些记录隐藏起来，只看研究过程，很难说这和一个机器人博士生在实验室里做研究有什么本质区别。

更有意思的是，Agent 甚至会根据任务特点主动改变研究路线。

在 Zip-tie 任务中，它很快发现端到端训练效果并不好。

原因很简单，因为这个任务实在太长了：

找到剪刀 → 抓起剪刀 → 找到扎带 → 对准位置 → 完成剪切。

整个操作链跨越多个阶段，单纯依赖端到端策略很难学好，于是 Agent 自己换了一条路线。

先利用 VLA 模型（Vision-Language-Action）完成粗定位，再调用工具 API 执行精细操作。

某种程度上，它甚至自己做了一次系统架构设计。

如果要找一个最直接的参照物，其实就是 Karpathy 前段时间提出的 Autoresearch。

两者本质上都在做同一件事：让 AI 自动提出想法、运行实验、比较结果，再根据结果继续迭代。

区别在于，Autoresearch 发生在数字世界。代码写崩了可以重来，实验跑错了可以重启。

算力几乎是唯一成本，而 ENPIRE 第一次把这套研究循环搬进了物理世界，机器人不是代码。

你没法对一台撞坏的机械臂执行 Git Revert，真实世界里，摩擦力在变化，物体位置在变化，光照在变化，传感器也会产生噪声。

ENPIRE 的核心价值，就是通过自动复位、自动评分和安全控制接口，把原本混乱的物理世界包装成 Agent 能够反复调用的实验环境。

对于 Agent 来说，真实世界第一次拥有了类似软件开发环境的可迭代性。

另一个有意思的发现，是所谓的「物理 Scaling」。

过去大模型 Scaling 的是参数、数据和算力，ENPIRE 开始 Scaling 实验数量。

论文里，8 个 Agent 分别占用 8 台机器人，同时探索不同路线。

结果 Pin Insertion 任务达到目标成功率的时间，从单机器人模式下的 1.5 小时缩短到 40 分钟。

换句话说，如果过去的大模型是在扩展 GPU 集群，那么 ENPIRE 扩展的则是机器人舰队。

当然，这种 Scaling 并不便宜。

随着 Agent 数量增加，每个 Agent 都需要阅读其他 Agent 的代码、理解别人的发现、总结经验并同步知识。

因此 Token 消耗增长得比机器人数量更快，论文甚至专门提出两个指标来衡量这种代价：

Mean Robot Utilization：机器人有多少时间真正用于实验；

Mean Token Utilization：系统每分钟究竟烧掉多少 Token。

看到这里，大概也能理解为什么 Jim Fan 会这么兴奋。因为他们发现，研究本身似乎也开始具备了可扩展性。

甚至连经验传承都出现了，论文里有个很有意思的实验：

Agent 在 Pin Insertion 任务中积累的经验，被整理成一份文字总结，然后直接塞进 GPU Insertion 任务的 Prompt 里。

结果后续研究效率明显提升，注意，这里迁移的既不是模型权重，也不是训练数据。

而是一份研究笔记，和人类实验室传帮带时做的事情，几乎一模一样。

大平行的最后一块拼图

今年 5 月，Jim Fan 在红杉资本 AI Ascent 大会上做了一个演讲，提出了大平行（The Great Parallel）框架：机器人领域正在加速重走大语言模型走过的路。

如果加上最新的自主研究，语言模型正在经历四个阶段——预训练、对齐微调、强化学习推理、自主研究。

机器人也在走同样的四步，只不过每一步的介质从文本变成了物理世界。

前三步英伟达已经有了对应的布局：预训练阶段有 EgoScale（用两万小时人类第一视角视频训练运动先验）和 DreamZero ——一种全新的世界动作模型（WAM），用视频世界模型预测下一物理状态，替代语言模型预测下一 token；对齐阶段用少量传感化人类数据做动作微调；

强化学习阶段有 Dream Dojo ——一个纯神经仿真器，不用物理引擎，直接用视频世界模型生成模拟环境，机器人在 " 梦境 " 里做 RL。

但第四步——自主研究——在物理世界一直没有可执行的实现。ENPIRE 就是这一步。

一作肖文力（Wenli Xiao）在推特上写道：

Autoresearch 终于离开了沙盒，进入了具身世界。

肖文力是 CMU 机器人系博士生，导师是石冠亚（Guanya Shi），此前在英伟达 GEAR 实验室实习了两年。这篇论文的四位共同一作。

肖文力、谢佳（Jia Xie）、Tonghe Zhang、Haotian Lin，全部来自 CMU，三位共同指导教师分别是范麟熙（Jim Fan）、朱玉可（Yuke Zhu）（均来自英伟达）和石冠亚（CMU）。

Jim Fan 在推特上对 ENPIRE 的描述大概是整篇论文最有画面感的概括：

我们给 8 个 Codex agent 一个机器人舰队、一批 GPU 和充足的 token 预算。然后人类退场。机器人舰队开始活过来：它们学会寻找视觉线索，重置场景，练习新技能，修改控制栈，在线读论文，辩论，反思，卡壳，再直接在硬件上重试。我们所做的一切，就是给 Codex 一个通往原子世界的 API。剩下的是涌现。

ENPIRE 将全部开源。理论上，每个人也可以搭建自己的 " 自运行机器人实验室 "。

前提是你得买得起那 8 台机器人、英伟达的 GPU，以及跑 coding agent 的 token。

参考链接

[ 1 ] https://x.com/_wenlixiao/status/2066913196641071464

[ 2 ] https://research.nvidia.com/labs/gear/enpire/#fleet-scaling

宙世代

一起剪