对话原力灵机唐文斌：纯“世界模型”路线走不通

一场关于具身智能的 " 数据暗战 " 正在悄然打响。

今年 1 月，湖北人形机器人创新中心向智元机器人交付了数千小时的训练数据，完成了国内首例定制化人形机器人数据交易。

行业巨头方面，京东日前喊出了建成全球规模最大、场景最全的具身智能数据采集中心的口号，计划动员超 10 万内部员工及最多 50 万外部人员，开启一场史无前例的 " 人海战术 "。

视线转向海外，韩国机器人公司 Robotis 于今年 1 月在乌兹别克斯坦设立子公司，计划在一块 11 万平方米的土地上建起一座巨大的 " 数据工厂 "，用于收集机器人行为数据。

按小时计费的定制化交易、数十万人的大动员、远赴中亚建厂，这一系列举措都折射出整个具身智能行业沉重的 " 数据焦虑 "。

与在互联网语料中成长的大语言模型不同，具身智能需要理解世界并与真实世界进行交互，这对数据的真实性、模态等都提出了更高的要求。

这也是原力灵机创始人兼 CEO 唐文斌当下正在攻坚的难题之一。

回溯履历，唐文斌更为人熟知的身份是上一波 AI 浪潮中明星独角兽旷视科技的联合创始人兼 CTO。

成立仅一年的原力灵机已经悄然吸金超 10 亿元，拿下了阿里、蔚来、君联、启明等头部机构的投资。

目前原力灵机已发布旗下首个具身原生大模型 DM0，并与华勤技术达成战略合作，实现数据采集机器人 DOS ‑ W1 的量产交付。

在经历了上一波 AI 落地的洗礼后，唐文斌对行业有了更多的敬畏之心。

在日前与华尔街见闻 · 全天候科技的对话中，唐文斌分享了原力灵机的数据采集思路：不依赖单一来源，而是以 " 质量✖数量✖多样性 " 的组合方式实施分布式采集，以此填满机器人的能力空间。

对于通过世界模型生成数据，让机器人能够模仿学习的路线，唐文斌认为这条路难以走通，他指出更为可行的范式是将世界模型与 VLA（视觉 - 语言 - 动作）模型相统一。即不仅能预测未来世界，还能据此反推出所需的精准动作。

当行业玩家们正以各自的方式疯狂 " 囤积 " 数据粮草时，究竟哪种路线才能 " 笑到最后 "，市场正在拭目以待。

以下是对话实录。

详解数据采集

全天候科技：能否分享你们的数据采集思路？

唐文斌：目前我们还是模仿加强化学习的方式。

模仿涉及数据分布的模拟。我们的目标是让数据尽可能地填满机器人的能力空间，见过足够多的东西。核心在于识别未见过场景的处理能力，数据的价值便在于此，所以我们的数据采集是围绕开放环境和实际场景展开。

但我们会希望数据保持高质量的同时，还能够尽可能的填满这个空间，所以我觉得数据是一个 " 质量✖数量✖多样性 " 的组合问题。

全天候科技：那数据如何进行采集？

唐文斌：其实我们并不依赖某一种数据来源，这样做也没必要，基本上是一个组合模式。真机数据方面，主要通过各种经过校准的传感器进行采集，具体包括类似外骨骼等，但确实采集成本会比较高。

同时，我们也会通过无本体和第一人称视角收集数据，形成更大规模的数据集，这其实就是介于真机和合成数据的中间派了。

除此之外，还有采集成本更低的互联网数据。

全天候科技：能否具体解释无本体采集？

唐文斌：无本体的意思就是说它可能是一个手套或手持夹爪，没有机械臂、机器人的身体，所以相当于就只是用了一个末端装置。我记录了这个末端装置的大致位置和状态，目前这种数据采集方式也被称为 UMI。

今天，我们讨论的第一人称视角数据也很多，例如通过眼镜拍摄操作过程，这也是一种无本体的采集方式。

全天候科技：每个人的 AI 眼镜数据都具有隐私性，应该没有人愿意公开自己眼镜的数据供采集。你们怎么解决这个问题？

唐文斌：确实，如果我作为眼镜的用户，我也不想把我的数据分享给大家。但是训练的话，我们可以请一些第三方的数据采集员，通过日常佩戴眼镜记录工作流程，然后数据也会被记下来。

当然，我们也希望眼镜本身的功能可以更加强大，比如有立体视觉、多目的能力。同时我们未来可能还会增加手环、手套的装置用于采集数据。

所以整体来看我们采集的对象是多样化的。第一类是机器人本身，可以遥控操作；第二类是类似于夹爪等的无本体，即 " 人的身体 + 机器人末端 " 的装置；第三类是完全针对人体的采集；第四类则是对物理世界的描述。

全天候科技：例如在末端传感器中，主要采集的是力的数据吗？

唐文斌：不只是力度，我们还是希望数据是多模态的，比如包括增加视角。

实操方面，因为手臂可能会遮挡部分数据，我们可以眼睛部位装配一个相机，两个手腕上也可能各有两个相机，形成多视角的数据。

全天候科技：这种采集成本会很高吗？

唐文斌：这其实就是一个数据质量、数量和多样性的复杂问题。如果需要采集所有模块的数据，成本将变得非常高昂。所以我们采用分布式的采集策略，有些数据我们会尽可能地保证其完整性，而有些数据为了降低成本、增加数量和提高速度，可能就不再那么注重完整性。

这是一个权衡的问题，我们拥有自己的采集工具，并且广泛地与其他行业合作。

全天候科技：今年 2 月你们跟华勤技术合作推出了数据采集机器人，能否分享这款机器人的情况？

唐文斌：这款机器人主要是用在科研的场景，有点类似于 ALOHA 机器人的形态，同行也有在做这个。（注：ALOHA 代表 "A Low-cost Open-source Hardware system for bimanual teleOperation"，是一种用于双手远程操作的低成本开源硬件系统）

但是目前市场的数据采集机器人存在两大痛点，

一方面是可靠性，产品表现确实不尽如人意，例如频繁故障会对科研工作产生负面影响，降低工作效率。

我们目前也无法确保产品的长时间稳定性，所以我们的改进点是简化了修理过程，设计了模块化可拆卸的产品结构。一旦某个部件损坏，用户可以快速更换。例如很多地方的连接处都不是螺丝，是那种旋钮，所以可能 30 秒就能修好了；

另一方面是成本仍然比较高，所以我们通过与华勤的合作设计了一款类似 ALOHA 的产品，支持主从、拖拽式操作。最核心就是修得快，价格便宜。（注：主从是指人通过操控主臂，实现对从臂的实时远程控制，动作零延迟复刻，以此实现实现低成本、高精度的双臂精细操作数据的采集。）

全天候科技：同行买过这个机器人去采集数据吗？

唐文斌：是的，其实行业的痛点还是比较一致的，所以其实大家都会买同行的产品回去搭配一起使用。

世界模型路线走不通

全天候科技：能不能聊一聊对世界模型和 VLA 的看法？

唐文斌：这里要区分两点，就是理解世界和生成世界是不一样的。

我们今天讨论的大模型能力，大家普遍关注的是它们理解世界的能力。世界模型实际上是在尝试预测未来，即预测下一帧可能会是什么样子的，而 VLA 的实质是与世界交互。

这些模型具有共通性，但又能够从不同的角度解决问题。

我们觉得最佳的策略是相结合。只有这样，我们才能真正理解并生成内容，理解和与世界交互。

理论上来说，如果能够预测未来世界，我们便能够反向推断出我们应该如何操作。而如果我们知道如何操作，那说明我们是能够预测未来的发展。

所以我们现在的技术框架里世界模型跟 VLA 是统一的，就是我们希望一个模型既能够理解这个世界，同时又能预测后续。

如此一来，模型不仅能执行动作，还能预测执行该动作后世界将如何变化。

全天候科技：行业的技术框架是否和你们不同？

唐文斌：确实，目前一些公司主张仅使用世界模型。有观点是认为通过世界模型生成数据，让机器人能够模仿学习，这样就产生了一个无限的数据源。

但我自己觉得这条路是走不通的，因为如果世界模型已经实现了，那生成的问题就已经解决了，大家也不需要通过生成的数据再去训练机器人了。

那另外一条路就是我们和很多同行会去做的，就是通过预测未来世界模型，然后根据这个模型反推出所需的动作，这种方法涉及到先预测未来的场景或世界状态，再计算出相应的动作序列，这种范式其实就是我刚才讲的相结合统一的模型框架。

全天候科技：从场景上来说，由于当前工厂的产线自动化程度很高，机器人进厂打工会不会没有用武之地？

唐文斌：确实当前工厂的自动化解决方案已经相当成熟。但我们想去解决的是原来解决不了的问题，或者是原来解决起来成本很高的问题。

但其实大家看到的很多自动化产线对泛化性要求是没有那么高的，即不需要对象、环境和任务的泛化。例如可能 SKU 就几个，光照等外部环境条件已经过调节。

那当前解决不了的问题其实是对象多样化，环境也随时在变化，甚至可能会有很多不同的任务。

以物流场景为例，现在大家的机器人做的主要是搬运工作，但是没有做好手上的操作，因为这对泛化性的要求很高。

例如你购买了一瓶可乐和一包薯片，操作员就会把可乐和薯片分别包装好。由于商品种类繁多且环境条件不断变化，这个其实就很难用自动化设备解决。

还有包装的场景，以瓶装沐浴露为例，我们收到产品时会发现瓶口部缠一圈塑料膜，这是为了防止沐浴露泄露。

实际操作过程中，目前通常是操作人员基于经验，缠上保鲜膜再放入泡沫袋中，并在封口贴上标签，这就没办法通过自动化设备来完成。

我们现在主要是在物流、工业上有做一些尝试。

全天候科技：你们是倾向于在特定场景进行集中开发，还是想在多个场景同时铺开？

唐文斌：这个要分两头讲，观察大模型的发展，尤其是当前最新的进展，可以发现一个共同的趋势。如果我们现在只构建了一个垂直领域的模型，它是无法达到真正有泛化能力的模型，这是行不通的。

因此，从模型的角度来看，我们必须坚定地追求泛化性，追求更加通用的技术能力。

但从应用场景落地的角度来看，我们确实得一个一个场景去落地，逐一实现。

所以我们内部经常强调产品落地有两点核心，首先，我们的解决方案必须能够形成闭环，即解决客户业务中的所有问题和异常情况，满足所有流程需求。其次，我们需确保成本可控，让客户觉得合作划算。

只有在满足这两个前提条件时，客户才可能考虑规模化应用我们的产品。

所以我们每实施一个场景，都必须清晰地理解客户价值，并确保这两个要点都能得以实现。这是一个逐年下单的过程。

我们内部把这个过程描述为模型发展与应用落地之间的关系，它们之间存在 45 度夹角，即它们相关但并不绝对相关。

当然，我们的模型需要朝着那个通用方向发展。

对场景要有敬畏之心

全天候科技：所以你们是主张通用机器人的路线吗？

唐文斌：我个人认为模型具有通用性，但硬件很难实现。

其实我们的双手非常灵活，一只可以执行精细操作，同时也能举起 20 斤的重物，甚至更厉害还能举起 50 斤的重物。

但是受到物理学和材料学的限制，能够举起 2 公斤商品的机械臂和能举起 20 公斤重物的机械臂肯定不同，因为它们的功率密度不同。

所以我们认为如果你采用一个通用的设计并应用到具体场景中，很容易发现这是欠设计或者过设计。

欠设计就是可能重量限制无法通过，或者是传感器的安装空间过于狭窄，导致无法解决问题；可能恰好能搞定，但这可能过度设计了，价格就会变得很高。

以轮式双臂为例，当重心较高时，它跑得更快。但一旦速度起来，它就很难停下来，否则就会摔倒。

这时我们可能会发现，在某些场景中，静止不动可能是一个更优的选择，让移动的车辆将物品送过来。

因此，可能在这些场合会存在过度设计的问题。

我们的内部逻辑是让模型具有通用性，并且能够适应不同的硬件平台。

全天候科技：所以现在投资人比较看重你们的能力是模型？

唐文斌：对，我们团队的独特之处在于不仅从事机器人场景的研发，而且深入理解模型。我们在旷视的物流领域积累了丰富的经验，并且具备一定的规模，因此对产品有较深的理解，同时我们拥有一群专注于模型优化的专业人士。

全天候科技：因为很多可能某一个行业内的公司对于本行业的需求会比较了解，但你们是模型业务起家，会不会对场景需求的了解程度比较弱？

唐文斌：其实之前我们在旷视的时候就做了很多的场景了，所以我觉得我们还算是一帮被被教育过的人。

这其实是心态问题，其实机器人行业是需要两拨人，一波人更懂技术，一波人更懂场景，我们其实是站在中间的人。

其实光搞技术的人会对场景做很多的假设，他觉得不就是这些。但真实场景中的魔鬼隐藏在细节之中。例如当出现问题时，生产流程不能停，因此必须有完善的异常处理流程。

因此，技术工作的人必须对场景怀有敬畏之心。

但行业的人也有很多问题，我们历史上就是很多同事对技术上会有两种状态，一开始觉得技术无所不能，一旦涉及到 AI 智能，他们就会期望你能解决所有问题。然而当他们发现某些问题无法解决时，就会感到极度失望，进而选择回归到传统的、基于规则的方法。

但今天模型的发展其实既不是能达到无所不能，也不是什么都不行，是在一个中间阶段，并且斜率很高，处于快速发展状态。

所以我们非常需要能够既对场景有判断，理解算法及其发展速度的人。同时，也需要有人来设计应该如何着手解决当前的问题，让项目尽快启动。

我们今天所从事的所有工作实质上都是在满足需求。我们肯定会有自己视野上的局限。

所以我主张广泛学习和多角度观察，但我们也应有自己判断的标准，选择那些能够持续生存下来的场景。

全天候科技：那你们怎么定位自己的目标客群呢？是机器人公司，还是场景应用方？

唐文斌：其实还是场景应用方。

坦白说，无论是国内还是国外的同行，大家所使用的模型都不太成熟。因此今天大家并没有达到将模型直接部署到机器人公司的设备上，经过简单训练后就能使用的状态。

我认为在模型尚未成熟的情况下，要实现场景落地应用，垂直整合是必要的。

如果我们自身都搞不定这个场景，却期望合作伙伴和客户能够解决，这无疑是美好的幻想。我相信有朝一日，我们可能自己做了一些垂直的场景，而可能更多的场景可以通过开放平台的方式，与我们的合作伙伴一起完成。他们既可以用我们的硬件，也可以只用我们的大脑，去自主探索更多可能性。

全天候科技：所以这是你们对模型开源的原因，就是希望更多人能加入进来？

唐文斌：开源有两方面的考虑。首先我们希望更多人使用我们的框架和模型，这样大家可以共同探索更多应用场景并推动技术的落地。其次，尽管当前行业热度很高，但整体模型的成熟度仍处于初级阶段，促进相互交流和进步至关重要。

全天候科技：你之前提到 2026 年的核心目标是每个场景部署 1000 台可持续运转的设备，能否分享一下这个目标完成的情况？

唐文斌：这可能要到下半年才能实现持续运行。目前我们还在进行 POC 测试。

我们对自有场景实现批量化的潜力还是很有信心的。

其实要让机器人能够持续运行，必须找到容错环节。坦白说，当前模型驱动的方法还无法做到百分之百的准确率。

如果任务失败怎么办？这个问题必须有答案。我们需要探讨通过什么种方式接管任务，让失败的任务能够被恢复。同时我们还需评估这种失败对企业的影响，判断这种影响是否可接受。

在采取了兜底方案之后，我们还需要确认整个系统的 ROI。

全天候科技：说到 ROI 的话，那客户会直接提出说你们可以帮助产线节约多少钱吗？

唐文斌：客户通常会直接问我们能多久回本。

如果一个项目需要超过五年才能回本，那就不用做了。

如果预计两到三年内就能回本，那就是立马干。在当前的 B2B 环境中，我们大多数决策都是基于理性的分析，算清到底能为客户提升多少效率。比如机器人能够延长某些生产环节的运作时间，更高效地利用现有设备，为客户带来价值。

全天候科技：能否剧透后续的模型更新情况？

唐文斌：今年我们的核心议题将集中在泛化性上。

全天候科技：去年才创业来做具身智能的模型，你觉得会不会太晚了？

唐文斌：其实在很多年前我们就很想做一个通用机器人了，当时我们觉得技术上不成熟。但是随着 DeepSeek 等大模型的发展后，确实让我对这件事变得更有信心了。

全天候科技：如果让你给 2026 年具身智能行业 1 个关键词，你觉得会是什么？

唐文斌：我想给 2 个关键词，一是模型能力的提升，二是场景的持续运行。

我认为当前的模型还处于早期阶段，但发展速度很快，所以我们要努力提升模型的算法能力，包括在对象、环境适应性和任务泛化性上都有所提升，模型的泛化能力是至关重要的。其次，关于场景的应用，我认为单纯的 POC 没太大意义，它只是一个起点，重点在于如何在实际场景中持续运行，今年确实已经到时候了。

宙世代

一起剪

相关标签