30人，90天订单1亿：机器人爆发前夜，卖数据的先赚钱了

这是铅笔道与浪潮资本的联合专栏。浪潮资本是专注于科技和消费领域的新经济投行。

口述 | 弈人科技创始人马成辉

作者 | 铅笔道邹蔚

封面图 | ChatGPT 创作

2026 年的 Physical AI（物理世界 AI），大概相当于 2023 年的大模型。

最近，这个赛道诞生了一笔亿元融资：弈人科技完成 PreA+ 轮及 PreA++ 轮连续两轮亿元级融资。

弈人科技把汽车、机器人从真实世界获得的大量数据，经过加工，卖给自动驾驶企业和具身智能企业。

2025 年，弈人科技收入突破亿元，并盈利，是 AI 数据行业中为数不多有利润的企业。

弈人科技创始人马成辉，在北京大学获得硕士学位。先后在两家智慧交通上市公司担任高管。后来加入蚂蚁集团，负责智慧出行、智慧硬件业务。

" 我发现车辆每天都在移动，道路每天都在变化，城市每天都在发生新的事情，但这些数据并没有被系统性地记录和利用。" 他看到了在物理世界道路上海量数据的价值，创办了弈人科技。

最近，铅笔道与弈人科技创始人马成辉交流，讨论了物理 AI 赛道的赚钱机会。

1、具身智能行业最缺哪些数据？

最缺高质量、多模态、场景化、可交互的数据，这些数据背后就是商业机会。

2、当下最能变现的数据有哪些？

聚焦工业制造、物流分拣、药房配药等具体场景，与头部场景方和模型公司三方合作，提供定制化高价值数据，客户付费意愿强、复购率高，且竞争少。

3、弈人科技的收入构成？

去年公司整体收入破亿，自动驾驶数据相关占比超 60%。但今年 Q1 具身智能数据订单已经过亿，预测今年具身数据的订单会有爆发性的增长。

声明：访谈对象已确认文章信息真实无误，铅笔道愿为其内容做信任背书。

年入过亿的秘密

我们做的事情很简单：让移动智能体感知真实物理世界，并让这些数据产生更大的价值。

现在很多人会把它叫做 Physical AI（物理 AI），但刚开始创业的时候，还没有这个概念。

我们只是想用车去感知真实世界。第一代产品，就是通过车辆上各种传感器，比如 GPS、摄像头、雷达，去感知道路上真实物理世界的变化。

大家很熟悉的功能，比如导航里的红绿灯倒计时、实时路况，都是车辆去感知真实世界变化的结果。

沿着这个逻辑，我们收集了大量真实物理世界的数据，然后把这些数据卖给自动驾驶模型公司、算法公司和主机厂，帮助他们训练模型。

这个过程中，我们逐渐有能力把原来 " 车感知世界 " 的逻辑，用在 " 机器人感知世界 " 上。

去年我们公司只有 30 多人，收入已经过亿元，而且已经盈利，是 AI 行业里比较早实现盈利的公司之一。去年收入超 60% 来自自动驾驶数据板块，客户主要是自动驾驶模型公司、算法公司和主机厂。

弈人科技创始人马成辉

但今年情况变化很大。今年 Q1 新增的具身订单已经超过去年全年营收，预计到年底，具身收入占比会超过 50%，到明年、后年，比例还会继续提高。

核心原因是我们坚持做数据泛化。同行数据采完以后，只能卖一次。比如 A 企业的数据，只能卖给 A 企业。

自动驾驶时代，一份高质量数据经过加工后，可以服务多个客户，具身也是一样。我们通过模型能力、数据治理能力，把一份数据泛化后，可以卖给两家、三家甚至更多客户。数据会出现乘数效应，这也是我们毛利和净利比较高的重要原因。

我们只做高价值、高信息密度的时空数据处理。这部分数据，谁都知道很好，但想获取它们，一直有几个痛点：贵、慢、散、闭。

一是成本高，每小时高质量数据采集成本可达上千元；二是迭代慢，数据更新周期长；三是数据分散，难以系统性收集边缘场景和失败案例。四是数据采集与商业化应用脱节，大量数据在采集后 " 沉睡 "。

我们利用近千万辆车辆作为采集渠道，获取全国范围内的边缘场景数据，用 AI 技术自动化处理替代人工标注，真正实现 " 用 AI 采集数据，用 AI 治理 AI"，再一个就是数据泛化。

例如有一年下大雪，北方很多地方有人堆雪人，但南方某主机厂的模型从来没见过这种场景，模型就会被干扰。我们利用全国车辆数据网络，把这种真实世界里少见的场景快速筛选出来，再提供给模型公司。这就是高价值数据。

失败数据也有价值

今年自动驾驶、具身智能客户对数据的需求，有几个很显著的变化。

第一，从单模态走向多模态。

去年大部分订单还是视觉数据。但今年开始，客户下单时已经不仅仅要视觉数据，他们会要求力觉、触觉、听觉，甚至要求多种传感器融合的数据。因为机器人最终面对的是一个真实世界，真实世界从来都不是单模态的。

第二，从通用场景转向垂类场景。

去年大家最喜欢买什么数据？抓、拿、取、放，几乎所有客户都在买这类标准动作数据。当时行业希望先解决机器人最基础的能力问题。

但今年不一样，具身客户越来越希望我们进入真实场景，比如酒店、物流中心、零售门店、药房，采集真正有商业价值的数据。我们的定制化数据服务收入占比已经从去年的 40% 提升到今年的 65%。

第三个变化更很有意思。过去客户喜欢成功数据，现在客户越来越喜欢失败数据。

以前机器人成功完成一个动作，大家觉得这是好数据。但现在大家发现，真正帮助模型成长的，往往不是成功案例，而是失败案例。

机器人为什么抓空？为什么掉落？为什么执行错误？这些失败数据对于模型泛化能力提升反而更重要。所以我们今年明显看到，失败数据需求增长速度甚至超过成功数据。

我跟客户交流，现在讨论最多的是三个问题：

第一，怎么把高质量数据规模化生产出来？

第二，怎么找到真正有价值的 Corner Case？

第三，数据的 ROI 到底是多少？

前几年行业融资很多，大家买数据的时候，对成本的敏感度相对没有那么高。但今年开始不一样了，客户越来越关注数据投入的实际回报，而不是单纯追求数据规模。

他们会问，这份数据进入模型以后，能带来多大的泛化提升？如果提升很有限，那么再便宜的数据也没有意义。反过来，如果某些高质量边缘场景数据能够显著提升模型能力，那即便价格高一些，他们也愿意为真正有价值的数据付费。

数据采集方式也有很大变化。

去年行业主要依赖机器人本体数据。今年最大的变化之一，是 Ego Data，也就是第一视角数据的大规模兴起。

我们会让真实场景的工作人员佩戴轻量化采集设备，实时记录工作过程。这和我们当年通过车辆采集自动驾驶数据是一回事。以前是车在路上跑，现在是人在工作，底层逻辑完全一样。

除了商业场景之外，我们现在还获得了一些地方政府、国企和央企的授权，在一些东部城市和西南城市，我们已经进入部分非敏感场景采集数据。例如生产线，工人在流水线上工作的过程，还有一些非遗工匠的制作过程。这些数据不仅能够用于模型训练，甚至有机会把一些传统工艺数字化保存下来。

拥抱真实场景数据

这两年行业里有一个特别热门的话题，就是机器人到底应该依靠真实数据，还是依靠仿真数据、虚拟数据。

这两条路线并不是对立关系，而是互相辅助的关系。只不过在技术路线选择上，我们一直是坚定站在真实数据这一边。

因为无论今天是生成式数据、仿真数据，还是各种虚拟世界训练，本质上都有一个前提：模型必须足够好。

虚拟数据能够成立的前提，本身就是建立在真实数据之上。真实数据才是源头，虚拟数据是在源头基础上的放大器。

很多人之所以今天特别重视仿真数据，很大程度上是因为真实数据过去太贵、太慢、太少。

无论自动驾驶还是具身智能，早期最大的痛点都是数据获取成本高。

在自动驾驶时代，一小时高质量数据采集成本曾经达到千元。今天具身智能领域，一小时真机数据采集成本同样还是千元级别。所以很多人希望通过仿真数据快速扩充规模。

这个逻辑我完全理解，但我也看到一个新的变化，就是前面提到的，第一视角数据采集在兴起，这种模式的数据规模增长速度远远超过去年。未来几年，它的数据增长速度可能会达到几十倍量级。

与此同时，采集硬件成本也在下降。越来越多模型公司开始把互联网视频数据、第一视角视频数据和真实场景数据结合起来训练模型。

随着成本下降和规模提升，我认为真实数据在整个训练体系中的占比会越来越高，而不是越来越低。

其实自动驾驶行业已经经历过一次类似讨论。十年前自动驾驶数据量不足的时候，行业里也有大量声音认为应该依靠仿真环境解决问题。但后来真实数据规模逐渐增长以后，整个行业最终还是回到了真实物理数据这条主线上。

我认为具身智能也会经历类似过程。

我看到的大多数具身智能企业，今天绝大部分预算依然投入在真实数据上。仿真数据有价值，但占比仍然比较小。

马斯克其实一直是坚定的真实数据主义者，他公开讲过很多次。一方面利用 X 平台上的海量第一视角视频做预训练，另一方面利用特斯拉工厂持续采集真实世界数据。

这和我们的理解非常接近。如果未来竞争最终只是 GPU 数量竞争、算力竞争，那么创业公司根本没有机会，因为资源一定掌握在全球最大的科技公司手里。

创业公司真正的机会，在于找到别人没有的数据，找到别人没有进入的场景，形成自己的数据壁垒。

自动驾驶留给具身智能的教训

我服务自动驾驶行业很多年，经常有人问我：具身智能会不会重演自动驾驶的故事，经历一轮巨额融资、疯狂烧钱，然后淘汰一大批公司？

我对具身智能更乐观。

第一个原因，技术成熟度已经不一样了。

自动驾驶刚刚兴起的时候，大模型时代还没有到来，很多底层能力并不成熟。但今天不一样，无论 VLA 还是世界模型，已经能够较好地理解和执行现实世界中的动作。这是自动驾驶刚起步时不具备的条件。

第二个原因，是自动驾驶已经替行业交过学费了。

过去十年，自动驾驶行业很多模式最终被证明是无效的，有很多钱最终被证明烧错了地方，这些经验今天都摆在具身智能行业面前。

现在很多具身智能企业都非常务实，大家不太愿意一上来就做一个无所不能的机器人。相反，大家都在寻找能够快速商业化落地的垂直场景：物流、搬运、医疗、巡检、酒店服务。这是一个非常健康的现象。

第三个原因，需求本身不同。

相比自动驾驶更多是围绕交通效率及出行体验的提升，具身智能面对的是更加广泛的物理世界场景，包括工业制造、应急救援、危险作业、人力短缺等领域。在这些场景中，机器人解决的不只是效率问题，更是在替代人完成一些高风险、高重复，甚至过去难以完成的任务。因此，具身智能天然具备更多元的商业化路径，也有机会在更多垂直场景中率先形成商业闭环。

自动驾驶留给具身智能最大的教训，不是技术问题，而是战略问题。

很多自动驾驶公司当年拿了大量融资以后，开始什么都想做，做数据，做算法，做芯片，做硬件，甚至做整车和平台，最后资源被严重分散。这是我认为最大的教训。

自动驾驶还有一个非常残酷的现实：大约每两三年，整个行业都会发生一次模型范式变化。

每一次变化都会诞生新的明星公司，也都会淘汰一批曾经风光无限的公司。很多企业融资很多、估值很高，但最后仍然倒在技术迭代面前。

今天做具身智能的人，也必须保持警惕，技术迭代速度可能远远超过所有人的预期。

第二个值得警惕的是硬件价格。

自动驾驶刚开始的时候，无论摄像头、激光雷达还是域控制器，价格都非常高。但中国供应链只用了几年时间，就把成本迅速打下来。

今天机器人行业也一样。在一个高端机器人本体还卖几十万元，但我相信未来几年，本体成本一定会快速下降。当硬件越来越便宜的时候，行业竞争重点一定会从硬件转向商业模式。

谁能找到持续赚钱的模式，谁才能真正活下来。

宙世代

一起剪

相关标签