全天候科技 7小时前
对话原力灵机唐文斌:纯“世界模型”路线走不通
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一场关于具身智能的 " 数据暗战 " 正在悄然打响。

今年 1 月,湖北人形机器人创新中心向智元机器人交付了数千小时的训练数据,完成了国内首例定制化人形机器人数据交易。

行业巨头方面,京东日前喊出了建成全球规模最大、场景最全的具身智能数据采集中心的口号,计划动员超 10 万内部员工及最多 50 万外部人员,开启一场史无前例的 " 人海战术 "。

视线转向海外,韩国机器人公司 Robotis 于今年 1 月在乌兹别克斯坦设立子公司,计划在一块 11 万平方米的土地上建起一座巨大的 " 数据工厂 ",用于收集机器人行为数据。

按小时计费的定制化交易、数十万人的大动员、远赴中亚建厂,这一系列举措都折射出整个具身智能行业沉重的 " 数据焦虑 "。

与在互联网语料中成长的大语言模型不同,具身智能需要理解世界并与真实世界进行交互,这对数据的真实性、模态等都提出了更高的要求。

这也是原力灵机创始人兼 CEO 唐文斌当下正在攻坚的难题之一。

回溯履历,唐文斌更为人熟知的身份是上一波 AI 浪潮中明星独角兽旷视科技的联合创始人兼 CTO。

成立仅一年的原力灵机已经悄然吸金超 10 亿元,拿下了阿里、蔚来、君联、启明等头部机构的投资。

目前原力灵机已发布旗下首个具身原生大模型 DM0,并与华勤技术达成战略合作,实现数据采集机器人 DOS ‑ W1 的量产交付。

在经历了上一波 AI 落地的洗礼后,唐文斌对行业有了更多的敬畏之心。

在日前与华尔街见闻 · 全天候科技的对话中,唐文斌分享了原力灵机的数据采集思路:不依赖单一来源,而是以 " 质量✖数量✖多样性 " 的组合方式实施分布式采集,以此填满机器人的能力空间。

对于通过世界模型生成数据,让机器人能够模仿学习的路线,唐文斌认为这条路难以走通,他指出更为可行的范式是将世界模型与 VLA(视觉 - 语言 - 动作)模型相统一。即不仅能预测未来世界,还能据此反推出所需的精准动作。

当行业玩家们正以各自的方式疯狂 " 囤积 " 数据粮草时,究竟哪种路线才能 " 笑到最后 ",市场正在拭目以待。

以下是对话实录。

详解数据采集

全天候科技:能否分享你们的数据采集思路?

唐文斌:目前我们还是模仿加强化学习的方式。

模仿涉及数据分布的模拟。我们的目标是让数据尽可能地填满机器人的能力空间,见过足够多的东西。核心在于识别未见过场景的处理能力,数据的价值便在于此,所以我们的数据采集是围绕开放环境和实际场景展开。

但我们会希望数据保持高质量的同时,还能够尽可能的填满这个空间,所以我觉得数据是一个 " 质量✖数量✖多样性 " 的组合问题。

全天候科技:那数据如何进行采集?

唐文斌:其实我们并不依赖某一种数据来源,这样做也没必要,基本上是一个组合模式。真机数据方面,主要通过各种经过校准的传感器进行采集,具体包括类似外骨骼等,但确实采集成本会比较高。

同时,我们也会通过无本体和第一人称视角收集数据,形成更大规模的数据集,这其实就是介于真机和合成数据的中间派了。

除此之外,还有采集成本更低的互联网数据。

全天候科技:能否具体解释无本体采集?

唐文斌:无本体的意思就是说它可能是一个手套或手持夹爪,没有机械臂、机器人的身体,所以相当于就只是用了一个末端装置。我记录了这个末端装置的大致位置和状态,目前这种数据采集方式也被称为 UMI。

今天,我们讨论的第一人称视角数据也很多,例如通过眼镜拍摄操作过程,这也是一种无本体的采集方式。

全天候科技:每个人的 AI 眼镜数据都具有隐私性,应该没有人愿意公开自己眼镜的数据供采集。你们怎么解决这个问题?

唐文斌:确实,如果我作为眼镜的用户,我也不想把我的数据分享给大家。但是训练的话,我们可以请一些第三方的数据采集员,通过日常佩戴眼镜记录工作流程,然后数据也会被记下来。

当然,我们也希望眼镜本身的功能可以更加强大,比如有立体视觉、多目的能力。同时我们未来可能还会增加手环、手套的装置用于采集数据。

所以整体来看我们采集的对象是多样化的。第一类是机器人本身,可以遥控操作;第二类是类似于夹爪等的无本体,即 " 人的身体 + 机器人末端 " 的装置;第三类是完全针对人体的采集;第四类则是对物理世界的描述。

全天候科技:例如在末端传感器中,主要采集的是力的数据吗?

唐文斌 :不只是力度,我们还是希望数据是多模态的,比如包括增加视角。

实操方面,因为手臂可能会遮挡部分数据,我们可以眼睛部位装配一个相机,两个手腕上也可能各有两个相机,形成多视角的数据。

全天候科技:这种采集成本会很高吗?

唐文斌:这其实就是一个数据质量、数量和多样性的复杂问题。如果需要采集所有模块的数据,成本将变得非常高昂。所以我们采用分布式的采集策略,有些数据我们会尽可能地保证其完整性,而有些数据为了降低成本、增加数量和提高速度,可能就不再那么注重完整性。

这是一个权衡的问题,我们拥有自己的采集工具,并且广泛地与其他行业合作。

全天候科技:今年 2 月你们跟华勤技术合作推出了数据采集机器人,能否分享这款机器人的情况?

唐文斌:这款机器人主要是用在科研的场景,有点类似于 ALOHA 机器人的形态,同行也有在做这个。(注:ALOHA 代表 "A Low-cost Open-source Hardware system for bimanual teleOperation",是一种用于双手远程操作的低成本开源硬件系统)

但是目前市场的数据采集机器人存在两大痛点,

一方面是可靠性,产品表现确实不尽如人意,例如频繁故障会对科研工作产生负面影响,降低工作效率。

我们目前也无法确保产品的长时间稳定性,所以我们的改进点是简化了修理过程,设计了模块化可拆卸的产品结构。一旦某个部件损坏,用户可以快速更换。例如很多地方的连接处都不是螺丝,是那种旋钮,所以可能 30 秒就能修好了;

另一方面是成本仍然比较高,所以我们通过与华勤的合作设计了一款类似 ALOHA 的产品,支持主从、拖拽式操作。最核心就是修得快,价格便宜。(注:主从是指人通过操控主臂,实现对从臂的实时远程控制,动作零延迟复刻,以此实现实现低成本、高精度的双臂精细操作数据的采集。)

全天候科技:同行买过这个机器人去采集数据吗?

唐文斌 :是的,其实行业的痛点还是比较一致的,所以其实大家都会买同行的产品回去搭配一起使用。

世界模型路线走不通

全天候科技:能不能聊一聊对世界模型和 VLA 的看法?

唐文斌:这里要区分两点,就是理解世界和生成世界是不一样的。

我们今天讨论的大模型能力,大家普遍关注的是它们理解世界的能力。世界模型实际上是在尝试预测未来,即预测下一帧可能会是什么样子的,而 VLA 的实质是与世界交互。

这些模型具有共通性,但又能够从不同的角度解决问题。

我们觉得最佳的策略是相结合。只有这样,我们才能真正理解并生成内容,理解和与世界交互。

理论上来说,如果能够预测未来世界,我们便能够反向推断出我们应该如何操作。而如果我们知道如何操作,那说明我们是能够预测未来的发展。

所以我们现在的技术框架里世界模型跟 VLA 是统一的,就是我们希望一个模型既能够理解这个世界,同时又能预测后续。

如此一来,模型不仅能执行动作,还能预测执行该动作后世界将如何变化。

全天候科技 :行业的技术框架是否和你们不同?

唐文斌:确实,目前一些公司主张仅使用世界模型。有观点是认为通过世界模型生成数据,让机器人能够模仿学习,这样就产生了一个无限的数据源。

但我自己觉得这条路是走不通的,因为如果世界模型已经实现了,那生成的问题就已经解决了,大家也不需要通过生成的数据再去训练机器人了。

那另外一条路就是我们和很多同行会去做的,就是通过预测未来世界模型,然后根据这个模型反推出所需的动作,这种方法涉及到先预测未来的场景或世界状态,再计算出相应的动作序列,这种范式其实就是我刚才讲的相结合统一的模型框架。

全天候科技 :从场景上来说,由于当前工厂的产线自动化程度很高,机器人进厂打工会不会没有用武之地?

唐文斌 :确实当前工厂的自动化解决方案已经相当成熟。但我们想去解决的是原来解决不了的问题,或者是原来解决起来成本很高的问题。

但其实大家看到的很多自动化产线对泛化性要求是没有那么高的,即不需要对象、环境和任务的泛化。例如可能 SKU 就几个,光照等外部环境条件已经过调节。

那当前解决不了的问题其实是对象多样化,环境也随时在变化,甚至可能会有很多不同的任务。

以物流场景为例,现在大家的机器人做的主要是搬运工作,但是没有做好手上的操作,因为这对泛化性的要求很高。

例如你购买了一瓶可乐和一包薯片,操作员就会把可乐和薯片分别包装好。由于商品种类繁多且环境条件不断变化,这个其实就很难用自动化设备解决。

还有包装的场景,以瓶装沐浴露为例,我们收到产品时会发现瓶口部缠一圈塑料膜,这是为了防止沐浴露泄露。

实际操作过程中,目前通常是操作人员基于经验,缠上保鲜膜再放入泡沫袋中,并在封口贴上标签,这就没办法通过自动化设备来完成。

我们现在主要是在物流、工业上有做一些尝试。

全天候科技:你们是倾向于在特定场景进行集中开发,还是想在多个场景同时铺开?

唐文斌:这个要分两头讲,观察大模型的发展,尤其是当前最新的进展,可以发现一个共同的趋势。如果我们现在只构建了一个垂直领域的模型,它是无法达到真正有泛化能力的模型,这是行不通的。

因此,从模型的角度来看,我们必须坚定地追求泛化性,追求更加通用的技术能力。

但从应用场景落地的角度来看,我们确实得一个一个场景去落地,逐一实现。

所以我们内部经常强调产品落地有两点核心,首先,我们的解决方案必须能够形成闭环,即解决客户业务中的所有问题和异常情况,满足所有流程需求。其次,我们需确保成本可控,让客户觉得合作划算。

只有在满足这两个前提条件时,客户才可能考虑规模化应用我们的产品。

所以我们每实施一个场景,都必须清晰地理解客户价值,并确保这两个要点都能得以实现。这是一个逐年下单的过程。

我们内部把这个过程描述为模型发展与应用落地之间的关系,它们之间存在 45 度夹角,即它们相关但并不绝对相关。

当然,我们的模型需要朝着那个通用方向发展。

对场景要有敬畏之心

全天候科技 :所以你们是主张通用机器人的路线吗?

唐文斌:我个人认为模型具有通用性,但硬件很难实现。

其实我们的双手非常灵活,一只可以执行精细操作,同时也能举起 20 斤的重物,甚至更厉害还能举起 50 斤的重物。

但是受到物理学和材料学的限制,能够举起 2 公斤商品的机械臂和能举起 20 公斤重物的机械臂肯定不同,因为它们的功率密度不同。

所以我们认为如果你采用一个通用的设计并应用到具体场景中,很容易发现这是欠设计或者过设计。

欠设计就是可能重量限制无法通过,或者是传感器的安装空间过于狭窄,导致无法解决问题;可能恰好能搞定,但这可能过度设计了,价格就会变得很高。

以轮式双臂为例,当重心较高时,它跑得更快。但一旦速度起来,它就很难停下来,否则就会摔倒。

这时我们可能会发现,在某些场景中,静止不动可能是一个更优的选择,让移动的车辆将物品送过来。

因此,可能在这些场合会存在过度设计的问题。

我们的内部逻辑是让模型具有通用性,并且能够适应不同的硬件平台。

全天候科技 :所以现在投资人比较看重你们的能力是模型?

唐文斌:对,我们团队的独特之处在于不仅从事机器人场景的研发,而且深入理解模型。我们在旷视的物流领域积累了丰富的经验,并且具备一定的规模,因此对产品有较深的理解,同时我们拥有一群专注于模型优化的专业人士。

全天候科技:因为很多可能某一个行业内的公司对于本行业的需求会比较了解,但你们是模型业务起家,会不会对场景需求的了解程度比较弱?

唐文斌:其实之前我们在旷视的时候就做了很多的场景了,所以我觉得我们还算是一帮被被教育过的人。

这其实是心态问题,其实机器人行业是需要两拨人,一波人更懂技术,一波人更懂场景,我们其实是站在中间的人。

其实光搞技术的人会对场景做很多的假设,他觉得不就是这些。但真实场景中的魔鬼隐藏在细节之中。例如当出现问题时,生产流程不能停,因此必须有完善的异常处理流程。

因此,技术工作的人必须对场景怀有敬畏之心。

但行业的人也有很多问题,我们历史上就是很多同事对技术上会有两种状态,一开始觉得技术无所不能,一旦涉及到 AI 智能,他们就会期望你能解决所有问题。然而当他们发现某些问题无法解决时,就会感到极度失望,进而选择回归到传统的、基于规则的方法。

但今天模型的发展其实既不是能达到无所不能,也不是什么都不行,是在一个中间阶段,并且斜率很高,处于快速发展状态。

所以我们非常需要能够既对场景有判断,理解算法及其发展速度的人。同时,也需要有人来设计应该如何着手解决当前的问题,让项目尽快启动。

我们今天所从事的所有工作实质上都是在满足需求。我们肯定会有自己视野上的局限。

所以我主张广泛学习和多角度观察,但我们也应有自己判断的标准,选择那些能够持续生存下来的场景。

全天候科技:那你们怎么定位自己的目标客群呢?是机器人公司,还是场景应用方?

唐文斌 :其实还是场景应用方。

坦白说,无论是国内还是国外的同行,大家所使用的模型都不太成熟。因此今天大家并没有达到将模型直接部署到机器人公司的设备上,经过简单训练后就能使用的状态。

我认为在模型尚未成熟的情况下,要实现场景落地应用,垂直整合是必要的。

如果我们自身都搞不定这个场景,却期望合作伙伴和客户能够解决,这无疑是美好的幻想。我相信有朝一日,我们可能自己做了一些垂直的场景,而可能更多的场景可以通过开放平台的方式,与我们的合作伙伴一起完成。他们既可以用我们的硬件,也可以只用我们的大脑,去自主探索更多可能性。

全天候科技:所以这是你们对模型开源的原因,就是希望更多人能加入进来?

唐文斌:开源有两方面的考虑。首先我们希望更多人使用我们的框架和模型,这样大家可以共同探索更多应用场景并推动技术的落地。其次,尽管当前行业热度很高,但整体模型的成熟度仍处于初级阶段,促进相互交流和进步至关重要。

全天候科技:你之前提到 2026 年的核心目标是每个场景部署 1000 台可持续运转的设备,能否分享一下这个目标完成的情况?

唐文斌:这可能要到下半年才能实现持续运行。目前我们还在进行 POC 测试。

我们对自有场景实现批量化的潜力还是很有信心的。

其实要让机器人能够持续运行,必须找到容错环节。坦白说,当前模型驱动的方法还无法做到百分之百的准确率。

如果任务失败怎么办?这个问题必须有答案。我们需要探讨通过什么种方式接管任务,让失败的任务能够被恢复。同时我们还需评估这种失败对企业的影响,判断这种影响是否可接受。

在采取了兜底方案之后,我们还需要确认整个系统的 ROI。

全天候科技:说到 ROI 的话,那客户会直接提出说你们可以帮助产线节约多少钱吗?

唐文斌:客户通常会直接问我们能多久回本。

如果一个项目需要超过五年才能回本,那就不用做了。

如果预计两到三年内就能回本,那就是立马干。在当前的 B2B 环境中,我们大多数决策都是基于理性的分析,算清到底能为客户提升多少效率。比如机器人能够延长某些生产环节的运作时间,更高效地利用现有设备,为客户带来价值。

全天候科技 :能否剧透后续的模型更新情况?

唐文斌:今年我们的核心议题将集中在泛化性上。

全天候科技:去年才创业来做具身智能的模型,你觉得会不会太晚了?

唐文斌:其实在很多年前我们就很想做一个通用机器人了,当时我们觉得技术上不成熟。但是随着 DeepSeek 等大模型的发展后,确实让我对这件事变得更有信心了。

全天候科技:如果让你给 2026 年具身智能行业 1 个关键词,你觉得会是什么?

唐文斌:我想给 2 个关键词,一是模型能力的提升,二是场景的持续运行。

我认为当前的模型还处于早期阶段,但发展速度很快,所以我们要努力提升模型的算法能力,包括在对象、环境适应性和任务泛化性上都有所提升,模型的泛化能力是至关重要的。其次,关于场景的应用,我认为单纯的 POC 没太大意义,它只是一个起点,重点在于如何在实际场景中持续运行,今年确实已经到时候了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 ai 唐文斌 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论