深圳最低调的机器人公司，融了10个亿后

过去一年，建数采工厂成为具身智能公司们的战略正确。

行业笃信，只要机器人足够多，数据足够多，模型就能像大语言模型一样持续进化。不过现实是，真机数据一条成本在几元甚至几十元，高成本之下数量也远远不足，一家公司每天能采集的数据量不过万条级别。

具身公司越来越难以回避的问题是，属于自己的 Scaling 何时到来。这是 RoboScience 机器科学试图回答的问题。

6 月 24 日，RoboScience 机器科学用一场具身大模型发布会，第一次正式把自己推到媒体面前。

在此之前，这家公司很少出现在大众和媒体视野，也没有频繁用机器人视频制造声量。但它已经在资本和技术圈里悄悄完成了一轮加速。

公开信息显示，机器科学在 2025 年 3 月完成数千万元种子轮融资，2025 年 7 月完成近 2 亿元天使轮融资，2026 年 2 月完成数亿元 Pre-A 轮融资，今年 5 月，A 轮融资规模已达到 10 亿元。

更值得关注的是它的创始团队。创始人兼 CEO 田野，本科毕业于中科大物理系，斯坦福硕士，师从 AI 大佬级人物吴恩达，曾任 Apple AI Platform 技术负责人。

创始人兼首席科学家邵林，是斯坦福博士、新加坡国立大学助理教授，长期研究机器人操作、灵巧抓取与泛化操作，邵林还带领团队连续两年斩获 ICRA 最佳论文 / 提名，是近 5 年亚洲唯一获此殊荣的团队。

RoboScience 机器科学提出了一条与当下主流 VLA 路线不同的技术路径：不是继续扩大遥操，而是尝试让机器人像大模型一样，建立自动化的数据生产体系。

这家 2024 年年底成立，此前并不引人注目的公司，为什么能在一年多时间里连续获得多轮融资？它这次发布的 Visics 通用具身大模型，又到底是在展示一个漂亮 demo，还是在给具身智能换一条底层路线？

VLA 不是唯一路径

过去两年，VLA 是具身智能绕不开的关键词。

Figure、Physical Intelligence，以及国内大多数机器人公司，都沿着 Vision-Language-Action 不断扩大模型规模，试图把视觉、语言和动作统一进同一个模型，借助大模型的泛化能力，减少针对每个任务单独编程和调参的成本，让机器人能够适应更多开放场景。

VLA 的逻辑很直观，机器人看见世界，理解指令，然后输出动作。但随着机器人进入真实场景，一个越来越明显的问题开始出现。当模型直接从视觉和语言跳到动作，它学到的往往是某一种机器人如何运动。

一个夹爪采出来的数据，很难直接迁移到五指灵巧手。一个机械臂学会的动作，换成本体之后可能又要重来，这意味着大量的重新训练。具身行业开始重新思考，VLA 是不是唯一的路径？Action 是不是最好的 token？

机器科学选择在 VLA 中间加了一个 O，变成 VLOA：Vision-Language-Object-Action。O 指 Object Trajectory，也就是被操作物体在三维空间中的运动轨迹和状态变化。

这是机器科学对具身智能 "token" 的一种新解释。他们认为机器人不仅要理解 " 人的手怎么动 "，更要理解 " 物体应该怎么变 "。例如把遥控器从桌上拿到椅子上，人可以拿，夹爪可以夹，五指手可以抓。执行方式不同，但被操作物体的目标变化是一致的。

叠衣服也是一样，机器科学关注的不是机械手每一帧如何运动，是衣服从摊开到被叠的过程 3D 点云如何连续变化。

这就是 VLOA 的核心，上层具身世界模型负责理解任务，预演物体未来的状态变化，下层通用操作模型负责把这条轨迹翻译成不同机器人的控制信号。

这套算法的野心，是把机器人、物体、任务三个维度的多样性装进同一种数据格式里。机器人本体可以不同，物体可以是刚体、铰链体、柔性体，任务也可以从抓取、分拣走向拼装、打领带和更复杂的操作。

如果这件事成立，机器科学就不只是做了一个模型，是在尝试定义具身智能的数据标准。

不过，Object Trajectory 能不能稳定生成，遮挡、漂移、虚实对齐、物理约束能不能在真实场景里处理好，都是硬问题。创始人田野给出的说法是，3D 点云不是简单等同于深度相机拍到的传感器点云，而是一种更高层的数学表征，世界模型可以补全被遮挡部分，生成完整物体轨迹。

行业最终看的其实不是解释，是复用率。如果 VLOA 只能在少数 demo 上成立，它就是一个漂亮的工程架构。如果它能让不同机器人面对不同物体时减少重训、减少标注、减少场景工程，才可能成为机器科学真正的壁垒。

不建数采场

大模型真正进入 Scaling 时代，并不仅仅因为 Transformer 出现，而是因为 Transformer 遇到互联网积累了数十年的文本和图片，它们成为预训练最廉价、也最丰富的燃料。

但机器人没有这样的幸运。

行业早已形成一个共识，当前具身智能最大的问题是数据。没有那么多机器人已经在真实世界里干活，真机数据从哪里来，成了所有具身智能公司的共同难题。因此，具身企业不得不建数采厂，做遥操作，让人戴设备采集第一视角视频，或者让机器人在实验室里反复执行任务。

机器科学不想走这条路。另一位创始人汪涛在发布会上算了一笔账，如果靠人采，每个人每天的数据量只有几百条，月产能大概是万条级别，而真机数据每条成本往往是几块钱。

相比之下，机器科学称其自动化数据流程可以把单条成本降到几分钱，产能只和 GPU 挂钩。汪涛似乎想复制 OpenAI 在 GPT-4 之后，逐渐形成的一种自动化数据飞轮。

在机器科学的框架里，预训练主要靠视频和仿真，真实场景数据更多用于后训练，尤其是那些失败样本。机器人在商超、物流、仓储里遇到抓不住、插不准、识别错、恢复失败的案例，才是后续模型补强的关键材料。

它的数据来源主要有两类，互联网视频和仿真数据。但互联网视频大多是二维的，不能直接喂给机器人。因此机器科学要先做过滤，剔除动画、玄幻、不符合真实物理交互的内容。再做增强，用 AI 模型和仿真引擎补齐 3D 信息、物体轨迹和物理约束，最终转化成世界模型可用的 3D Object Trajectory。

仿真数据则训练通用操作模型。机器人真正和世界发生关系时，学的是接触、摩擦、力控、形变、碰撞和连续操作。机器科学为此自研了多模态物理引擎 RoboMirage。

机器科学试图从底层求解器开始做物理交互模型。他们想解决机器人干活时最麻烦的问题，例如薄物体接触、布料形变、橡皮筋这种一维弹性体的大形变、瞬时惯性力、摩擦力、流体等。

按机器科学披露，他们视频数据已达到数百万小时规模，并希望继续向千万小时级别推进。仿真操作轨迹则已经积累到十亿到百亿级别，并计划继续扩展。这里面的数字当然还需要在更多真实场景中验证质量，但至少说明它的打法和传统真机采集不在一个生产逻辑里。

这套路线的好处是明显的，便宜、快、规模更大，还能摆脱具体硬件绑定。风险也同样明显，Sim-to-Real Gap 永远不会因为公司说自研仿真器就自动消失，二维视频到 3D 轨迹的自动化转换，也会持续面对噪声、偏差和物理一致性问题。

机器科学现在给出的，是一套更像大模型公司的数据生产逻辑。它接下来要证明的是，这套逻辑在机器人上也能跑通。

先去 B 端干活

具身智能行业现在讲的很多的，是家庭机器人的场景。进家门、做家务、照护老人，是当下颇容易理解的未来。不过，真正做过机器人落地的人都知道，家庭场景可能是最复杂、最难标准化的场景。

机器科学选择先从物流、零售、商超等 B 端场景切入。相比于商业路径，现阶段这更像一种模型选择。

很长一段时间，机器人行业讨论商业化，离不开机器人应该先去哪一个行业的讨论。但对于今天的具身公司来说，还有一个问题，什么样的场景，能够持续训练模型。场景不仅影响营收，也决定数据。

商超和物流最大的特点，是 SKU 多、物体形态复杂、包装变化频繁、摆放状态不稳定。传统自动化可以处理标准化流程，但一旦进入大量非标物体，工程成本会迅速上升。

这正好对应机器科学想先突破的 " 物体泛化 "。机器科学目前在机器人本体维度，已经验证接近 10 种真机本体，以及更多仿真机器人。物体维度上，柔性、刚性、异形件等已经有较高程度验证，任务维度则最难，需要一步一步推进，先从抓取、分离等和物体泛化强相关的任务开始，再推进到更复杂的拼装和长程操作。

它足够复杂，也足够开放，不断产生新的数据和新的失败案例，迫使模型持续学习，而不是停留在已经完成的任务上。

商业模式上，机器科学提供三类能力，纯软件 license、带大模型能力的端侧控制器，以及自研机器人本体。纯软件面向机器人本体公司、已有机器人场景方或集成商。控制器则把模型能力和标准接口打包，接入工业机械臂、协作臂或灵巧手。自研本体用于直接进入终端场景，跑通商业和数据闭环。

这套模式的好处是灵活，坏处是容易变重。

如果只做软件，中国机器人产业对纯软件付费的耐心有限。做控制器，就要处理硬件适配和交付。做本体和场景，就可能滑向集成商。机器科学软硬件一起做，当下来看更多是为了更快迭代模型，并用真实场景数据反哺基座模型。

这里有一个关键判断，场景选择会反过来决定技术路线。

如果一开始选择非常狭窄的场景，公司很容易为了交付走向小模型、小数据和过拟合，选择泛化要求高的场景，就会倒逼基座模型持续提升。这也是机器科学为什么强调物流、商超、零售，而不是去做一个机械臂已经能完成的自动化项目。

机器科学预计还会在 WAIC、WRC 等展会上展示和发布本体。到那时，外界看的可能不只是机器人长什么样，还有它能不能让 Visics 的模型能力真正进入可交付状态。

宙世代

一起剪

相关标签