从零训练一个原生大脑，自变量选择入驻真实家庭“实习”

上周末，人形机器人在马拉松上的出色表现，让外界感叹一年时间具身智能的高速进化。但对于大众来说，除了跳舞、打拳和跑步，何时能够走进家庭，才是最为关心的事情。

" 我们和跑马拉松的机器人，是两个完全不同的赛道 "，自变量 CEO 王潜指出，" 他们更偏硬件，但其实中国硬件供应链没有长期壁垒。我们做的是‘基础模型 + 软硬一体’全链路，更像大模型逻辑，只是多了硬件载体。"

就在前几日，自变量宣布完成了由小米战投领投的 B 轮融资。至此，其也成为国内唯一一家同时拿到字节、美团、阿里以及小米四家大厂投资的具身智能公司。根据公开信息显示，自成立以来，自变量在不到三年的时间里，已经完成了 13 轮融资。

在王潜看来，对比当年的移动互联网、自动驾驶这种级别的历史性机会，这个赛道还没有达到它应有的热度，甚至是偏冷的。而在宣布完成 B 轮融资的同时，在商业化路径上，自变量也给出了一个新的路径，一个月后的机器人，将搭载新一代自研具身智能基础模型 WALL-B，入驻真实家庭。

" 实验室里的东西，必须和真实世界碰撞。先把技术做到‘ Aha Moment ’，再谈大模型变现，逻辑没变。WALL-B 还是一个处在婴儿时期的实习生，我们在做的事情很简单，核心是为了让一个硅基智能体学会在你的家里生活。"

硬件到位，大脑没有跟上

具身智能的商业化元年，如果说过去大家还能凭借着 PPT 去讲故事融资，那么今年则将成为分水岭，不仅要去说服投资人，更要去说服市场，去进行商业化落地。

场景，作为嫁接技术与产业的核心枢纽，正成为推动具身智能落地的关键突破口。从当前的应用来看，多数具身智能机器人仍在跳舞、打拳这些有些审美疲劳的场景施展，更多的惊喜也仅限于能够做出更酷炫的动作，或者是跑得更快。

" 看起来很酷，视觉冲击力强，但它其实不知道自己在做什么。" 王潜直指当前频上热搜的人形机器人的痛点，" 本质上它们其实都是命令行机器人，绝大部分是有背后遥控操作的。这很正常，并且它也是机器人发展必须经历的过程。"

至于在工业场景中，看似规模化的应用，背后也并没有真正发挥出具身智能应有的价值。在王潜看来，真正的智能机器人难点不在于单一动作的重复，而在于能不能在随机环境下做出新的、没有被训练过的动作，家庭场景才是具身智能真正的 " 考场 "。

" 机器人在工厂和在家里完全是两件事，这是两个极端场景。工厂里一个动作重复一万次，每次都一样。家庭里一万个动作，可能每个做一次，每次都不一样。目前全球没有任何一台机器人可以在无遥控操作的情况下独立完成随机、碎片、不断变化场景中的综合整理任务。"

当下，机器人的硬件已经到位，双足、灵巧手、力控关节都很好，核心的问题就在于大脑没有跟上。对于复杂多变的家庭场景来说，对机器人不是单一能力的考验，而是必须要像人一样去理解真实的世界。

值得注意的是，在对自身的定义上，王潜一直在强调一件事，那就是区别于跑马和跳舞的机器人，自变量与做语言模型的公司距离更近。从成立的第一天开始，就在做一件事，即端到端的具身智能基础模型，就是给机器人造一个真正的大脑，并且能够直接控制动作。

" 我们做的本质是技术模型，它是一个系统性壁垒，不只在单一维度。例如 OpenAI 当年领先 Google 约两年，我认为在机器人领域这个时间窗口会更长，可能超过三年。"

用世界统一模型，从 0 训练一个原生大脑

物理世界模型的挑战是独特的，不仅需要处理动态视觉、2D 到 3D 的推理，还要应对物理交互中的复杂随机性，这些在数字世界模型中从未遇到过。在 2024 年年底，自变量曾发布了基于 VLA（视觉 - 语言 - 动作）架构的第一代具身基础模型 WALL-A，25 年 9 月，将同样思路架构下的轻量化模型版本 WALL-OSS 开源。

但是，在实际家庭场景的应用中，自变量发现了原有架构的限制，数据在视觉、语言、动作这三个模块之间逐级传递，每经过一次模块边界就会发生信息损耗和延迟。" 更根本的问题在于，VLA 模型只能模仿训练数据中的轨迹，无法真正理解物理世界的规律。它不理解杯子为什么会掉，不理解为什么盘子悬在桌边需要推回去。它只是在重复见过的东西。" 自变量 CTO 王昊说道。

而对于当前业界的主流路线，王潜认为都有问题，称它们并非为物理交互任务而生，本质上还是在贴标签。在全新的认知体系下，自变量在日前推出了自研具身智能基础模型 WALL-B，既不是传统意义的世界模型，也是 VLA，而是被称之为世界统一模型架构（World Unified Model，WUM）的具身智能基础模型。

为了方便理解，王昊将 WUM 类比于 Apple Silicon 的统一内存架构，苹果通过统一内存架构让所有处理单元共享同一块内存，WUM 则将视觉、语言、动作、物理预测等所有能力，放在同一个网络中从零开始联合训练，消除模块间的边界和数据搬运损耗。

王昊指出，基于这一架构，WALL-B 实现了三项区别于行业现有模型的核心技术特征：第一，原生多模态，模型具备 " 原生本体感 " 的能力；

第二，物理世界的 " 世界观 "。 WALL-B 能够感知并预测重力、惯性、摩擦力、速度等基本物理规律，在任何一个它从未去过的家庭中，都能利用对基本物理常识的理解来应对新场景，不需要针对每个家庭重新训练；

第三，与世界交互并自我进化。它在失败后会调整策略再次尝试，如果成功，则将这次成功的经验直接更新到模型参数中。这种机制使模型在真实环境中完成自我迭代，无需工程师重新训练、无需人工注入新数据、无需返回实验室。

" 想要跨越这个感知理解的鸿沟，必须学会像人一样去理解这个世界。我们必须做原生模型，从头训练，以捕捉物理世界的复杂规律。继承已有模型，会在语义理解、物理规律理解上存在问题。"

入驻真实家庭，"Aha Moment" 很快到来

物理世界的基础模型，必须从头原生训练，这是自变量想要传递出的信息。与此同时，王潜认为，行业发展速度远超大众直觉，真正的 "Aha Moment" 就在近两年，会比大家想象的更近。在发布了全新的模型后，自变量的商业化落地时间表也已经明确，5 月，新一代搭载 WALL-B 的机器人将入驻真实家庭。

关于家庭场景的特殊性，上文已经提及，相关数据也指出，家务是巨大的未被满足的市场，大概占整体 GDP 的 20%，是巨大的隐性经济。只是，不同于多数厂商的商业逻辑，自变量选择在实际场景中去提升能力，而非先在实验室训练完善后再推向市场。对此，王潜则表示，技术依旧是第一性，现阶段商业化也是为技术突破服务。

在自变量的判断下，数据是这个行业最大的秘密。目前，行业内大多数训练模型的数据来自实验室，这类 " 糖水数据 " 干净、可控、量大，但与真实世界差距显著。王昊指出，用这类数据训练出的模型，在真实环境中会迅速失效。真实家庭环境中采集的嘈杂、多变、充满随机性的 " 牛奶数据 "，是自变量选择的数据道路。

" 家庭是最高质量、最开放的数据场景，不进家庭，就不知道物理限制和模型漏洞。实验室里的东西，必须和真实世界碰撞，商业化是最高效的路径，希望在 2-3 年内，实现物理世界的‘ Aha moment ’。"

以实验数据打底，真实场景提质，这是自变量在未来要做的事情。当然，从理论上来看，自变量机器人可以处理家庭中的各项任务，但作为 " 实习生 "，现阶段必然是不完美的，卡壳、执行错误以及效率等都是会遇到的问题以及挑战，必要时还是需要人进行远程兜底监管，以保证安全。

不怕任务失败，也不怕当前的效率低，更重要的是是否能通过每一次的经验数据去变得更聪明。大众可以容忍机器人一开始的踉踉跄跄，但不会永远一个实习生持续性犯错误，这是自变量接下来需要给市场交出的答卷。（文 | 志读科技，作者 | 杜志强，编辑 | 杨林）

宙世代

一起剪

相关标签