量子位 昨天
Generalist最新长文定调:具身原生才是正道,中国玩家原力灵机已交卷
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Generalist AI 的 GEN-1 热度,仍在发酵。

自节前那场引爆全网的 Demo 之后,昨日,创始人 Pete Florence 与团队,正式释出了 GEN-1 的技术博客。

与其说这是一篇技术分享,不如说这是一篇「教同行做事」的檄文。

一点甲不叠,上来就毫不留情地否定了当前炙手可热的世界模型与 VLA 之争。

直言所有关于技术路线的争论都是浪费时间。

现在关于「世界模型」的讨论,其实是由各种想法在驱动,确实很令人兴奋。

但问题是,你的目标是什么?

在他们看来,具身智能的关注点,应该回归到「目标」本身。

这正是 Generalist 选择「离经叛道」的根本原因。

完全不依赖任何已有路线。不走微调 VLM 加动作头的捷径,也不宣称自己是世界模型。

直接基于真机数据从零开训。

GEN-1 大约 99% 的参数,都是从零开始训练的。

Generalist 强调,这才是促成 GEN-1 实现飞跃的核心机密,也是他们真正想与行业分享的洞见。

这是他们从第一性原理出发,得出的最终答案:

想要实现物理 AGI,最好的方式,或许就是「从零训练」这条看似不好走的路。

如果用原力灵机的话说,这叫「具身原生」。

原力灵机 CEO 唐文斌在 2026 技术开放日现场

是的,这条路线其实并非 GEN-1 首创。

就在两个月前,这家来自中国的具身智能新星,就已经用同样的逻辑,举办了一场「具身原生」主题的技术开放日,交出了一份惊艳的答卷。

原力灵机,具身原生大模型 DM0,RoboChallenge 真机评测全球第一。

所以,具身原生,到底有什么魔力?

GEN-1 引爆具身 GPT-3 时刻

GEN-1 的发布,无疑是 2026 年春节后,具身智能行业的第一次「大地震」。

创始人 Pete Florence 将其称为「GPT-3 时刻」。

在多个任务中,该模型的成功率超过 99%,完成任务的速度比此前最先进的模型快了大概 3 倍,甚至涌现出 Failure Recovery(故障恢复)的能力。

用实际 demo 表现,验证了机器人领域的 Scaling Law。

而此次 Generalist 在技术博客中的「暴论」,又在行业中掀起了一波余震。

只要数据和算力够,从零训,永远是赢家。

这句话放在 2024 年说,大概率会被当成疯话。

彼时 VLA 风潮席卷全球,拿一个预训练好的视觉语言模型,接上动作头微调一下,是兼顾效率和效果的公认最优解。

到了 2026 年初,世界模型又成了新的流量密码。

Generalist 偏偏不站队。

他们从来没把自己的模型叫 VLA,但也不宣扬自己是世界模型。

事实上,他们至今也没说自己是个什么技术路线,也不想去刻意贴标签。

但有一点却是无比清楚:无论靠什么方式,即便是「离经叛道」,他们也要彻底实现物理 AGI。

GEN-1 的博客引用了 John Schulman 的观点,犀利地划分了「想法驱动」与「目标驱动」两种研究范式。

前者,是雇佣兵。追涨杀跌,哪个方法火就选哪个,只为眼前的战功。

后者,是传教士。选定一个终极目标,然后埋头苦行,坚定不移地前行,扫清挡在路上的一切障碍。

Generalist 选了后者。

基于这个第一性原理,Generalist 做出了那个看似疯狂的决定——

不基于任何现有的基础模型,直接拿原始数据,冷启动。

在这方面,Generalist 表现出了近乎偏执的「完美主义」。

在他们看来,微调别人的模型,意味着从第一行代码开始,天花板就被别人锁死了。

知识边界、认知能力、甚至底层的缺陷,都已注定,无法更改。

Generalist 想要赌的,是明天。

而站在未来的时间节点回望,你会惊觉:

无论是 VLM、VLA,还是世界模型,本质上都只是标签,数据匮乏时期的「拐杖」。

关键问题在于,当「身体」恢复健康、肌肉足够强壮后,我们还需要拐杖吗?

供给端的版图永远在日新月异。

这正是这场比赛最惊心动魄的地方。

就像 F1 赛车,规则制定者会刻意限制车胎耐久标准,正是在这些 Trade-off(权衡)的极限施压下,才催生出无数截然不同的夺冠策略。

在 LLM 领域,虽然互联网数据不再是瓶颈,但算力成为了新的紧箍咒。

这才造就了 OpenAI、Anthropic、DeepMind 各自基于不同哲学思考,走出了截然不同的进化路线,因为资源只够他们选一条去 All in。

因此,基于第一性原理做出的长期主义战略判断,才会更显得尤为珍贵。

最难的不是应对变化,而是在风云诡谲的环境中,找到那个屹立不变的锚点。

你不仅要计算当前的限制,更要预判这些限制将如何不可避免地发生崩塌。限制变化得越快,这种预判就越重要。

而在 Generalist 看来,机器人数据不够,仅仅是暂时的限制。

进入 2026 年,事实证明,这项限制条件,确实被改写了。

Generalist 已经积累了超过 50 万小时的物理交互数据。

当原生数据足够丰富时,所有辅助手段终将被扫进历史的垃圾堆。

在他们看来,只有具身原生,从零开训这个「从无到有」的概念,是为那个即将到来的新世界而生的。

不过,GEN-1 可能并非第一个具身原生模型。

在中国,同样有家 All in 这个概念的明星具身公司,并且早在今年 2 月份便高调发布过。

DM0,首个具身原生模型

一起再来看看原力灵机的这份成绩单吧。

DM0,RoboChallenge 真机评测,双项全球第一。

单任务成功率:62%

多任务成功率:37.3%

排在它身后的,是 Pi0.5、Pi0 等一众明星模型。

而取得这一成绩的,仅仅是一个 2.4B 参数的模型。并且已全面开源。

2.4B 是什么概念?

在大模型的军备竞赛中,这个参数量几乎可以被忽略不计。

但结果却令人哗然。

对于这个结果,原力灵机合伙人周而进在与「智能相对论」的对话中,淡定地表示:

在机器人领域,无脑堆参数量这件事非常荒诞。

周而进一针见血地指出,参数并非第一性原理。

事实上,一旦找到了真正「原生」的路线,现有具身数据量根本无法支撑起一个大参数模型。

那么,DM0 所说的「原生」,到底「原生」在哪?

可以分为三个层面——

首先,是数据原生,这是拉开差距的关键。

当前行业的普遍做法是:下载一个预训练好的 VLM,然后外挂一些机器人操作数据进行微调。

快是快,但问题同样致命:模型压根没见过关节电机长什么样。

它只是看过一些互联网数据,背诵了关于机械动作的文字描述。仅此而已。

这种「死记硬背」导致了大量无意义的训练,最终带来参数膨胀。

这或许是一种参数层面的「幻觉」。

如果模型只是针对单一机型记忆「拿起瓶子」时,每个关节该转多少度,那么一旦换一台硬件,它将束手无策。

因此,DM0 走了完全不同的路。

它的训练数据融合了三类来源 :

多模态互联网数据:奠定语义理解和常识推理的基座能力。

驾驶数据:赋予模型对物理世界的时空推理与动态感知。

具身传感数据:涵盖视觉、触觉、力觉等多维度信息,让模型真正「触摸」到这个世界。

模型的输入端,不再仅仅是图像和文字,更包含了机器人实操的具身轨迹数据。

两类数据共同优化,迫使模型同时学会「看懂世界」和「动手操作」。

这是一种极其聪明的做法,在让数据结构更立体的同时,也巧妙地实现了数据规模的 Scaling。

在具体采集策略上,原力灵机的「原生」第一性原理同样体现得淋漓尽致——

正是因为完全目标导向,所以手段可以相当灵活。

比如对仿真数据的态度。

仿真数据量大管饱,但在精细操作场景中价值有限。例如「装水」任务,液体一晃,整个瓶子的质心就在变化,仿真环境难以准确建模。

因此,原力灵机在室内导航、刚性物体抓取等方面利用仿真数据,但在精细操作层面,则坚决侧重真机。

追求 Scaling,但不迷信数据量,而是让每一份数据都发挥最大价值。

这恰好与 Generalist 在 GEN-1 博客中的判断形成呼应:供给端是会变化的,你要为即将到来的世界而构建。

其次是训练原生。

DM0 将「理解世界」、「操作世界」、「预测世界」三种能力统一训练。

它不是先训练一个 VLM,再接一个动作头(Action Head),而是从第一天起,就让这三种能力在同一个模型体内共同生长、相互塑造。

模型的设计紧贴真实世界需求,评价标准是真机效果,奖励函数来自真实场景的实践反馈。

第三是架构原生。

DM0 采用天然支持多模态的架构设计,将力觉、触觉等维度的信息直接融入模型核心,而非外挂式地拼接传感器模块。

同时,它具备原生记忆能力,为长序列任务的执行提供坚实支撑。

三个「原生」叠加在一起,指向一个反直觉结果:模型虽小,却异常泛化。

对具身智能来说,泛化性是真正的试金石。

原力灵机将其拆解为四个维度:

对象泛化:同样是抓取,换个形状、材质、大小,照样能稳稳拿起。

场景泛化:在 A 车间能干活,搬到 B 车间也绝不掉链子。

任务泛化:不只局限于被教过的几个动作,更能自主排列组合,将简单动作串联成复杂的长程任务。

机型泛化:即便换一台胳膊更长、关节更多的机器人,也能直接驱动其上手干活。

四个维度,缺一不可。

而 DM0,从第一天就在为这四个维度做准备。

原力灵机没有像行业里很多团队那样,先针对一种机型训一个专用模型,跑通 demo 再说。

DM0 在预训练阶段就同时混合了操作、导航、全身控制三类任务,覆盖了 8 种构型迥异的机器人硬件。

相当「粗暴」。

这相当于对模型说:你不是喜欢死记硬背吗?

好,我把所有任务和所有本体混杂在一起扔给你——来,背!

事实证明,这一策略成功锁死了模型想通过死记硬背走捷径的念头。

「混乱」中,原力灵机倒逼模型不再执着于电机参数,转而去理解每次操作背后通用的逻辑和物理规律。

智能,就这样从原生的物理交互中,自然而然地生长了出来。

2.4B 参数,RoboChallenge 双项全球榜首。

2026 年,是具身原生元年

GEN-1 的博客里有句话,目标比方法更强大。

过去两年,行业最高频的问题是:机器人什么时候能进厂干活 ?

但或许,比这个问题更值得关注的是:

机器人什么时候能找到进厂干活的正确方法 ?

Generalist 用 GEN-1 给出了答案。

从零训练原生模型,摒弃一切拐杖的「借力」,可能才是通往终局的唯一路线。

无独有偶,原力灵机的 DM0,同样不约而同地在今年踏上了这条少有人走的路。

2026 年或许不是具身智能的元年。但 GEN-1 和 DM0 的出现,正在为 2026 年烙上一个新标签:

具身原生元年。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

评论
大家都在看