白鲸实验室 12小时前
深圳最低调的机器人公司,融了10个亿后
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

过去一年,建数采工厂成为具身智能公司们的战略正确。

行业笃信,只要机器人足够多,数据足够多,模型就能像大语言模型一样持续进化。不过现实是,真机数据一条成本在几元甚至几十元,高成本之下数量也远远不足,一家公司每天能采集的数据量不过万条级别。

具身公司越来越难以回避的问题是,属于自己的 Scaling 何时到来。这是 RoboScience 机器科学试图回答的问题。

6 月 24 日,RoboScience 机器科学用一场具身大模型发布会,第一次正式把自己推到媒体面前。

在此之前,这家公司很少出现在大众和媒体视野,也没有频繁用机器人视频制造声量。但它已经在资本和技术圈里悄悄完成了一轮加速。

公开信息显示,机器科学在 2025 年 3 月完成数千万元种子轮融资,2025 年 7 月完成近 2 亿元天使轮融资,2026 年 2 月完成数亿元 Pre-A 轮融资,今年 5 月,A 轮融资规模已达到 10 亿元。

更值得关注的是它的创始团队。创始人兼 CEO 田野,本科毕业于中科大物理系,斯坦福硕士,师从 AI 大佬级人物吴恩达,曾任 Apple AI Platform 技术负责人。

创始人兼首席科学家邵林,是斯坦福博士、新加坡国立大学助理教授,长期研究机器人操作、灵巧抓取与泛化操作,邵林还带领团队连续两年斩获 ICRA 最佳论文 / 提名,是近 5 年亚洲唯一获此殊荣的团队。

RoboScience 机器科学提出了一条与当下主流 VLA 路线不同的技术路径:不是继续扩大遥操,而是尝试让机器人像大模型一样,建立自动化的数据生产体系。

这家 2024 年年底成立,此前并不引人注目的公司,为什么能在一年多时间里连续获得多轮融资?它这次发布的 Visics 通用具身大模型,又到底是在展示一个漂亮 demo,还是在给具身智能换一条底层路线?

01

VLA 不是唯一路径

过去两年,VLA 是具身智能绕不开的关键词。

Figure、Physical Intelligence,以及国内大多数机器人公司,都沿着 Vision-Language-Action 不断扩大模型规模,试图把视觉、语言和动作统一进同一个模型,借助大模型的泛化能力,减少针对每个任务单独编程和调参的成本,让机器人能够适应更多开放场景。

VLA 的逻辑很直观,机器人看见世界,理解指令,然后输出动作。但随着机器人进入真实场景,一个越来越明显的问题开始出现。当模型直接从视觉和语言跳到动作,它学到的往往是某一种机器人如何运动。

一个夹爪采出来的数据,很难直接迁移到五指灵巧手。一个机械臂学会的动作,换成本体之后可能又要重来,这意味着大量的重新训练。具身行业开始重新思考,VLA 是不是唯一的路径?Action 是不是最好的 token?

机器科学选择在 VLA 中间加了一个 O,变成 VLOA:Vision-Language-Object-Action。O 指 Object Trajectory,也就是被操作物体在三维空间中的运动轨迹和状态变化。

这是机器科学对具身智能 "token" 的一种新解释。他们认为机器人不仅要理解 " 人的手怎么动 ",更要理解 " 物体应该怎么变 "。例如把遥控器从桌上拿到椅子上,人可以拿,夹爪可以夹,五指手可以抓。执行方式不同,但被操作物体的目标变化是一致的。

叠衣服也是一样,机器科学关注的不是机械手每一帧如何运动,是衣服从摊开到被叠的过程 3D 点云如何连续变化。

这就是 VLOA 的核心,上层具身世界模型负责理解任务,预演物体未来的状态变化,下层通用操作模型负责把这条轨迹翻译成不同机器人的控制信号。

这套算法的野心,是把机器人、物体、任务三个维度的多样性装进同一种数据格式里。机器人本体可以不同,物体可以是刚体、铰链体、柔性体,任务也可以从抓取、分拣走向拼装、打领带和更复杂的操作。

如果这件事成立,机器科学就不只是做了一个模型,是在尝试定义具身智能的数据标准。

不过,Object Trajectory 能不能稳定生成,遮挡、漂移、虚实对齐、物理约束能不能在真实场景里处理好,都是硬问题。创始人田野给出的说法是,3D 点云不是简单等同于深度相机拍到的传感器点云,而是一种更高层的数学表征,世界模型可以补全被遮挡部分,生成完整物体轨迹。

行业最终看的其实不是解释,是复用率。如果 VLOA 只能在少数 demo 上成立,它就是一个漂亮的工程架构。如果它能让不同机器人面对不同物体时减少重训、减少标注、减少场景工程,才可能成为机器科学真正的壁垒。

不建数采场

大模型真正进入 Scaling 时代,并不仅仅因为 Transformer 出现,而是因为 Transformer 遇到互联网积累了数十年的文本和图片,它们成为预训练最廉价、也最丰富的燃料。

但机器人没有这样的幸运。

行业早已形成一个共识,当前具身智能最大的问题是数据。没有那么多机器人已经在真实世界里干活,真机数据从哪里来,成了所有具身智能公司的共同难题。因此,具身企业不得不建数采厂,做遥操作,让人戴设备采集第一视角视频,或者让机器人在实验室里反复执行任务。

机器科学不想走这条路。另一位创始人汪涛在发布会上算了一笔账,如果靠人采,每个人每天的数据量只有几百条,月产能大概是万条级别,而真机数据每条成本往往是几块钱。

相比之下,机器科学称其自动化数据流程可以把单条成本降到几分钱,产能只和 GPU 挂钩。汪涛似乎想复制 OpenAI 在 GPT-4 之后,逐渐形成的一种自动化数据飞轮。

在机器科学的框架里,预训练主要靠视频和仿真,真实场景数据更多用于后训练,尤其是那些失败样本。机器人在商超、物流、仓储里遇到抓不住、插不准、识别错、恢复失败的案例,才是后续模型补强的关键材料。

它的数据来源主要有两类,互联网视频和仿真数据。但互联网视频大多是二维的,不能直接喂给机器人。因此机器科学要先做过滤,剔除动画、玄幻、不符合真实物理交互的内容。再做增强,用 AI 模型和仿真引擎补齐 3D 信息、物体轨迹和物理约束,最终转化成世界模型可用的 3D Object Trajectory。

仿真数据则训练通用操作模型。机器人真正和世界发生关系时,学的是接触、摩擦、力控、形变、碰撞和连续操作。机器科学为此自研了多模态物理引擎 RoboMirage。

机器科学试图从底层求解器开始做物理交互模型。他们想解决机器人干活时最麻烦的问题,例如薄物体接触、布料形变、橡皮筋这种一维弹性体的大形变、瞬时惯性力、摩擦力、流体等。

按机器科学披露,他们视频数据已达到数百万小时规模,并希望继续向千万小时级别推进。仿真操作轨迹则已经积累到十亿到百亿级别,并计划继续扩展。这里面的数字当然还需要在更多真实场景中验证质量,但至少说明它的打法和传统真机采集不在一个生产逻辑里。

这套路线的好处是明显的,便宜、快、规模更大,还能摆脱具体硬件绑定。风险也同样明显,Sim-to-Real Gap 永远不会因为公司说自研仿真器就自动消失,二维视频到 3D 轨迹的自动化转换,也会持续面对噪声、偏差和物理一致性问题。

机器科学现在给出的,是一套更像大模型公司的数据生产逻辑。它接下来要证明的是,这套逻辑在机器人上也能跑通。

先去 B 端干活

具身智能行业现在讲的很多的,是家庭机器人的场景。进家门、做家务、照护老人,是当下颇容易理解的未来。不过,真正做过机器人落地的人都知道,家庭场景可能是最复杂、最难标准化的场景。

机器科学选择先从物流、零售、商超等 B 端场景切入。相比于商业路径,现阶段这更像一种模型选择。

很长一段时间,机器人行业讨论商业化,离不开机器人应该先去哪一个行业的讨论。但对于今天的具身公司来说,还有一个问题,什么样的场景,能够持续训练模型。场景不仅影响营收,也决定数据。

商超和物流最大的特点,是 SKU 多、物体形态复杂、包装变化频繁、摆放状态不稳定。传统自动化可以处理标准化流程,但一旦进入大量非标物体,工程成本会迅速上升。

这正好对应机器科学想先突破的 " 物体泛化 "。机器科学目前在机器人本体维度,已经验证接近 10 种真机本体,以及更多仿真机器人。物体维度上,柔性、刚性、异形件等已经有较高程度验证,任务维度则最难,需要一步一步推进,先从抓取、分离等和物体泛化强相关的任务开始,再推进到更复杂的拼装和长程操作。

它足够复杂,也足够开放,不断产生新的数据和新的失败案例,迫使模型持续学习,而不是停留在已经完成的任务上。

商业模式上,机器科学提供三类能力,纯软件 license、带大模型能力的端侧控制器,以及自研机器人本体。纯软件面向机器人本体公司、已有机器人场景方或集成商。控制器则把模型能力和标准接口打包,接入工业机械臂、协作臂或灵巧手。自研本体用于直接进入终端场景,跑通商业和数据闭环。

这套模式的好处是灵活,坏处是容易变重。

如果只做软件,中国机器人产业对纯软件付费的耐心有限。做控制器,就要处理硬件适配和交付。做本体和场景,就可能滑向集成商。机器科学软硬件一起做,当下来看更多是为了更快迭代模型,并用真实场景数据反哺基座模型。

这里有一个关键判断,场景选择会反过来决定技术路线。

如果一开始选择非常狭窄的场景,公司很容易为了交付走向小模型、小数据和过拟合,选择泛化要求高的场景,就会倒逼基座模型持续提升。这也是机器科学为什么强调物流、商超、零售,而不是去做一个机械臂已经能完成的自动化项目。

机器科学预计还会在 WAIC、WRC 等展会上展示和发布本体。到那时,外界看的可能不只是机器人长什么样,还有它能不能让 Visics 的模型能力真正进入可交付状态。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 融资 斯坦福 创始人 天使轮
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论