铅笔道 1小时前
30人,90天订单1亿:机器人爆发前夜,卖数据的先赚钱了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

​​​​​​​

这是铅笔道与浪潮资本的联合专栏。浪潮资本是专注于科技和消费领域的新经济投行。

口述 | 弈人科技创始人 马成辉

作者 | 铅笔道 邹蔚

封面图 | ChatGPT 创作

2026 年的 Physical AI(物理世界 AI),大概相当于 2023 年的大模型。

最近,这个赛道诞生了一笔亿元融资:弈人科技完成 PreA+ 轮及 PreA++ 轮连续两轮亿元级融资。

弈人科技把汽车、机器人从真实世界获得的大量数据,经过加工,卖给自动驾驶企业和具身智能企业。

2025 年,弈人科技收入突破亿元,并盈利,是 AI 数据行业中为数不多有利润的企业。

弈人科技创始人马成辉,在北京大学获得硕士学位。先后在两家智慧交通上市公司担任高管。后来加入蚂蚁集团,负责智慧出行、智慧硬件业务。

" 我发现车辆每天都在移动,道路每天都在变化,城市每天都在发生新的事情,但这些数据并没有被系统性地记录和利用。" 他看到了在物理世界道路上海量数据的价值,创办了弈人科技。

最近,铅笔道与弈人科技创始人马成辉交流,讨论了物理 AI 赛道的赚钱机会。

1、具身智能行业最缺哪些数据?

最缺高质量、多模态、场景化、可交互的数据,这些数据背后就是商业机会。

2、当下最能变现的数据有哪些?

聚焦工业制造、物流分拣、药房配药等具体场景,与头部场景方和模型公司三方合作,提供定制化高价值数据,客户付费意愿强、复购率高,且竞争少。

3、弈人科技的收入构成?

去年公司整体收入破亿,自动驾驶数据相关占比超 60%。但今年 Q1 具身智能数据订单已经过亿,预测今年具身数据的订单会有爆发性的增长。

声明:访谈对象已确认文章信息真实无误,铅笔道愿为其内容做信任背书。

年入过亿的秘密

我们做的事情很简单:让移动智能体感知真实物理世界,并让这些数据产生更大的价值。

现在很多人会把它叫做 Physical AI(物理 AI),但刚开始创业的时候,还没有这个概念。

我们只是想用车去感知真实世界。第一代产品,就是通过车辆上各种传感器,比如 GPS、摄像头、雷达,去感知道路上真实物理世界的变化。

大家很熟悉的功能,比如导航里的红绿灯倒计时、实时路况,都是车辆去感知真实世界变化的结果。

沿着这个逻辑,我们收集了大量真实物理世界的数据,然后把这些数据卖给自动驾驶模型公司、算法公司和主机厂,帮助他们训练模型。

这个过程中,我们逐渐有能力把原来 " 车感知世界 " 的逻辑,用在 " 机器人感知世界 " 上。

去年我们公司只有 30 多人,收入已经过亿元,而且已经盈利,是 AI 行业里比较早实现盈利的公司之一。去年收入超 60% 来自自动驾驶数据板块,客户主要是自动驾驶模型公司、算法公司和主机厂。

弈人科技创始人马成辉

但今年情况变化很大。今年 Q1 新增的具身订单已经超过去年全年营收,预计到年底,具身收入占比会超过 50%,到明年、后年,比例还会继续提高。

核心原因是我们坚持做数据泛化。同行数据采完以后,只能卖一次。比如 A 企业的数据,只能卖给 A 企业。

自动驾驶时代,一份高质量数据经过加工后,可以服务多个客户,具身也是一样。我们通过模型能力、数据治理能力,把一份数据泛化后,可以卖给两家、三家甚至更多客户。数据会出现乘数效应,这也是我们毛利和净利比较高的重要原因。

我们只做高价值、高信息密度的时空数据处理。这部分数据,谁都知道很好,但想获取它们,一直有几个痛点:贵、慢、散、闭。

一是成本高,每小时高质量数据采集成本可达上千元;二是迭代慢,数据更新周期长;三是数据分散,难以系统性收集边缘场景和失败案例。四是数据采集与商业化应用脱节,大量数据在采集后 " 沉睡 "。

我们利用近千万辆车辆作为采集渠道,获取全国范围内的边缘场景数据,用 AI 技术自动化处理替代人工标注,真正实现 " 用 AI 采集数据,用 AI 治理 AI",再一个就是数据泛化。

例如有一年下大雪,北方很多地方有人堆雪人,但南方某主机厂的模型从来没见过这种场景,模型就会被干扰。我们利用全国车辆数据网络,把这种真实世界里少见的场景快速筛选出来,再提供给模型公司。这就是高价值数据。

失败数据也有价值

今年自动驾驶、具身智能客户对数据的需求,有几个很显著的变化。

第一,从单模态走向多模态。

去年大部分订单还是视觉数据。但今年开始,客户下单时已经不仅仅要视觉数据,他们会要求力觉、触觉、听觉,甚至要求多种传感器融合的数据。因为机器人最终面对的是一个真实世界,真实世界从来都不是单模态的。

第二,从通用场景转向垂类场景。

去年大家最喜欢买什么数据?抓、拿、取、放,几乎所有客户都在买这类标准动作数据。当时行业希望先解决机器人最基础的能力问题。

但今年不一样,具身客户越来越希望我们进入真实场景,比如酒店、物流中心、零售门店、药房,采集真正有商业价值的数据。我们的定制化数据服务收入占比已经从去年的 40% 提升到今年的 65%。

第三个变化更很有意思。过去客户喜欢成功数据,现在客户越来越喜欢失败数据。

以前机器人成功完成一个动作,大家觉得这是好数据。但现在大家发现,真正帮助模型成长的,往往不是成功案例,而是失败案例。

机器人为什么抓空?为什么掉落?为什么执行错误?这些失败数据对于模型泛化能力提升反而更重要。所以我们今年明显看到,失败数据需求增长速度甚至超过成功数据。

我跟客户交流,现在讨论最多的是三个问题:

第一,怎么把高质量数据规模化生产出来?

第二,怎么找到真正有价值的 Corner Case?

第三,数据的 ROI 到底是多少?

前几年行业融资很多,大家买数据的时候,对成本的敏感度相对没有那么高。但今年开始不一样了,客户越来越关注数据投入的实际回报,而不是单纯追求数据规模。

他们会问,这份数据进入模型以后,能带来多大的泛化提升?如果提升很有限,那么再便宜的数据也没有意义。反过来,如果某些高质量边缘场景数据能够显著提升模型能力,那即便价格高一些,他们也愿意为真正有价值的数据付费。

数据采集方式也有很大变化。

去年行业主要依赖机器人本体数据。今年最大的变化之一,是 Ego Data,也就是第一视角数据的大规模兴起。

我们会让真实场景的工作人员佩戴轻量化采集设备,实时记录工作过程。这和我们当年通过车辆采集自动驾驶数据是一回事。以前是车在路上跑,现在是人在工作,底层逻辑完全一样。

除了商业场景之外,我们现在还获得了一些地方政府、国企和央企的授权,在一些东部城市和西南城市,我们已经进入部分非敏感场景采集数据。例如生产线,工人在流水线上工作的过程,还有一些非遗工匠的制作过程。这些数据不仅能够用于模型训练,甚至有机会把一些传统工艺数字化保存下来。

拥抱真实场景数据

这两年行业里有一个特别热门的话题,就是机器人到底应该依靠真实数据,还是依靠仿真数据、虚拟数据。

这两条路线并不是对立关系,而是互相辅助的关系。只不过在技术路线选择上,我们一直是坚定站在真实数据这一边。

因为无论今天是生成式数据、仿真数据,还是各种虚拟世界训练,本质上都有一个前提:模型必须足够好。

虚拟数据能够成立的前提,本身就是建立在真实数据之上。真实数据才是源头,虚拟数据是在源头基础上的放大器。

很多人之所以今天特别重视仿真数据,很大程度上是因为真实数据过去太贵、太慢、太少。

无论自动驾驶还是具身智能,早期最大的痛点都是数据获取成本高。

在自动驾驶时代,一小时高质量数据采集成本曾经达到千元。今天具身智能领域,一小时真机数据采集成本同样还是千元级别。所以很多人希望通过仿真数据快速扩充规模。

这个逻辑我完全理解,但我也看到一个新的变化,就是前面提到的,第一视角数据采集在兴起,这种模式的数据规模增长速度远远超过去年。未来几年,它的数据增长速度可能会达到几十倍量级。

与此同时,采集硬件成本也在下降。越来越多模型公司开始把互联网视频数据、第一视角视频数据和真实场景数据结合起来训练模型。

随着成本下降和规模提升,我认为真实数据在整个训练体系中的占比会越来越高,而不是越来越低。

其实自动驾驶行业已经经历过一次类似讨论。十年前自动驾驶数据量不足的时候,行业里也有大量声音认为应该依靠仿真环境解决问题。但后来真实数据规模逐渐增长以后,整个行业最终还是回到了真实物理数据这条主线上。

我认为具身智能也会经历类似过程。

我看到的大多数具身智能企业,今天绝大部分预算依然投入在真实数据上。仿真数据有价值,但占比仍然比较小。

马斯克其实一直是坚定的真实数据主义者,他公开讲过很多次。一方面利用 X 平台上的海量第一视角视频做预训练,另一方面利用特斯拉工厂持续采集真实世界数据。

这和我们的理解非常接近。如果未来竞争最终只是 GPU 数量竞争、算力竞争,那么创业公司根本没有机会,因为资源一定掌握在全球最大的科技公司手里。

创业公司真正的机会,在于找到别人没有的数据,找到别人没有进入的场景,形成自己的数据壁垒。

自动驾驶留给具身智能的教训

我服务自动驾驶行业很多年,经常有人问我:具身智能会不会重演自动驾驶的故事,经历一轮巨额融资、疯狂烧钱,然后淘汰一大批公司?

我对具身智能更乐观。

第一个原因,技术成熟度已经不一样了。

自动驾驶刚刚兴起的时候,大模型时代还没有到来,很多底层能力并不成熟。但今天不一样,无论 VLA 还是世界模型,已经能够较好地理解和执行现实世界中的动作。这是自动驾驶刚起步时不具备的条件。

第二个原因,是自动驾驶已经替行业交过学费了。

过去十年,自动驾驶行业很多模式最终被证明是无效的,有很多钱最终被证明烧错了地方,这些经验今天都摆在具身智能行业面前。

现在很多具身智能企业都非常务实,大家不太愿意一上来就做一个无所不能的机器人。相反,大家都在寻找能够快速商业化落地的垂直场景:物流、搬运、医疗、巡检、酒店服务。这是一个非常健康的现象。

第三个原因,需求本身不同。

相比自动驾驶更多是围绕交通效率及出行体验的提升,具身智能面对的是更加广泛的物理世界场景,包括工业制造、应急救援、危险作业、人力短缺等领域。在这些场景中,机器人解决的不只是效率问题,更是在替代人完成一些高风险、高重复,甚至过去难以完成的任务。因此,具身智能天然具备更多元的商业化路径,也有机会在更多垂直场景中率先形成商业闭环。

自动驾驶留给具身智能最大的教训,不是技术问题,而是战略问题。

很多自动驾驶公司当年拿了大量融资以后,开始什么都想做,做数据,做算法,做芯片,做硬件,甚至做整车和平台,最后资源被严重分散。这是我认为最大的教训。

自动驾驶还有一个非常残酷的现实:大约每两三年,整个行业都会发生一次模型范式变化。

每一次变化都会诞生新的明星公司,也都会淘汰一批曾经风光无限的公司。很多企业融资很多、估值很高,但最后仍然倒在技术迭代面前。

今天做具身智能的人,也必须保持警惕,技术迭代速度可能远远超过所有人的预期。

第二个值得警惕的是硬件价格。

自动驾驶刚开始的时候,无论摄像头、激光雷达还是域控制器,价格都非常高。但中国供应链只用了几年时间,就把成本迅速打下来。

今天机器人行业也一样。在一个高端机器人本体还卖几十万元,但我相信未来几年,本体成本一定会快速下降。当硬件越来越便宜的时候,行业竞争重点一定会从硬件转向商业模式。

谁能找到持续赚钱的模式,谁才能真正活下来。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 ai 自动驾驶 物理 融资
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论