大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗,基于数字世界训练的 AI 模型性能提升速度明显放缓。与此同时,物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据,这些数据远未被有效利用,成为 AI 发展的下一个重要方向。
在 2025 北京智源大会上,智源研究院发布了 " 悟界 " 系列大模型,试图推动 AI 从数字世界迈向物理世界,实现所谓的物理 AGI。这一系列包含原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brain μ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0 以及全原子微观生命模型 OpenComplex2,覆盖从宏观到微观的物理世界认知。
然而,物理 AGI 面临着实实在在的技术困境。当前具身智能陷入一个 " 死循环 ":硬件不成熟导致数据稀缺,数据稀缺使得模型能力有限,模型能力弱又影响落地应用,最终阻碍产业规模化发展。如何破解这一循环?数据从何而来?跨本体泛化如何实现?
在智源大会前夕,硅星人与智源研究院院长王仲远进行了深度对话,探讨物理 AGI 从概念到现实需要跨越哪些关键门槛,以及智源的技术路径能否为这一变革提供可行的解决方案。
打造具身智能的 " 安卓系统 "
1、从 ' 悟道 ' 到 ' 悟界 ' 的命名变化,反映了智源对大模型技术发展趋势怎样的判断?这种转变的底层逻辑是什么?
王仲远:" 悟界 " 的 " 界 ",代表着对于虚实世界边界的突破,代表对物理世界的赋能,是向物理 AGI 方向的迈进。
这种转变背后有深层的技术判断。我们坚定的认为大模型的技术还远没有到发展的尽头。过往所说的 " 百模大战 " 更多的是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但提升速度不如以前。
解决大语言模型性能提升瓶颈的解法有很多。一是通过强化学习,在后训练和推理上提升,例如 O1、O3、O4、R1。二是数据合成。还有一个方向就是多模态。我们坚定的认为在全世界范围内,多模态数据是文字数据的百倍千倍乃至万倍甚至更多,这些数据远没有被很有效利用。
在去年的智源大会上,我们已经对大模型的技术路线进行了预判,认为会从大语言模型往多模态,尤其是原生多模态世界模型的方向发展。原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。
2、原生多模态模型的本质是构建 " 世界模型 " 么?是追求对物理规律的极致建模?还是构建具身智能的认知框架?
王仲远:" 世界模型 " 在世界范围内没有共同的定义,有很多名称 --" 空间智能 "、" 时空智能 " 等。我们将 Emu3 命名为 " 原生多模态世界模型 " 时,是认为它能通过单一模型捕捉世界的规律,不仅仅是物理世界的规律,还能融合丰富的多模态数据,例如人类与世界交互产生的脑电信号等,世界的多模态符号非常丰富,远不止图像、文字、声音和视频。智源的 " 原生多模态世界模型 " 代表的更多是人工智能对世界的探索。
" 读万卷书,更需要行万里路 ",如果一个人从出生就没有见过世界,即使读到了博士,对世界的理解依然是片面的。大模型技术过往基于互联网数据,尤其是互联网文本数据训练而来,固然对知识的理解很强,但对真实世界的运作规律并不理解。AI 从数字世界跨向物理世界时必须突破数字世界的隔阂,最重要的隔阂和边界是空间和时间的感知。
3、物理世界的多模态是哪些模态?我看到见微 Brain μ 的模态就是收集神经信号,未来 AI 是否可以突破人类的感知限制?
王仲远:当然," 世界模型 " 到底包含什么,除了时间和空间,还有不同模态数据,例如脑信号数据、各种传感器数据等,真实世界模型复杂性更高。
见微 Brain μ 模型,将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,实现多模态脑信号与文本、图像等模态的多向映射,。
Brain μ 整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100 万单位的神经信号预训练。
Brain μ 可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。。
具身智能领域会有更多的模态,比如说 3D 信号、时空信号等,都可以作为一种模态。各种传感器的数据,这些都属于物理世界的一种模态。真实的世界模型的复杂性会更强。
现在很多多模态模型,看到这个咖啡杯在桌子上,会描述 " 咖啡杯在桌上,这个咖啡杯是白色的,上面有一些文字 ",但是人类看到首先有空间的认知是 " 咖啡杯在桌子的边缘,很危险 "。现在绝大部分多模态大模型不具备这样的判断能力。
机器人操作时就应该从边缘往里拿,而不是从里往外拿,因为一碰就会跌落,这个跌落就包含时间序列的预测,咖啡杯有可能掉下去甚至弄脏地板,这就是时空智能预测,是智源所探索的多模态世界模型的能力。
4、RoboBrain 2.0 在技术架构上与其他具身智能模型的本质区别是什么?为什么选择跨本体通用而非专用优化的路线?
王仲远:智源具身大脑 RoboBrain 能够跨本体,目前没有几家公司能够真正做到这一点,就好比 IOS 系统只能在 iPhone 使用,但安卓系统能在不同的手机上运行。智源是一家科研机构,希望构建面向不同硬件本体使用的具身大模型,这是我们的理念。
RoboBrain 能够适配各种构型的机器人,包括机械臂、轮式单臂、轮式双臂、双足、四足等等。RoboBrain 2.0 相比于 RoboBrain 1.0 的基于 Prompt 的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体 - 环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(Scene Graph),并自动完成跨本体的任务规划。
当前,具身智能的 VLA 模型泛化性不够,也许能把咖啡端得很好,但并不能很好地解决其他泛化任务。具身智能或者机器人 2.0 时代,最重要的是能突破专有任务,达到一定的泛化性,再到未来具备更通用、跨领域的泛化性,这需要一定的发展过程。我们坚定认为,人工智能正在加速从数字世界走向物理世界,而真正的物理 AGI 需要的是能够跨越不同硬件平台的通用智能。
很多具身智能的机器人创业公司不具备模型研发能力,因为模型研发的成本、对人才的需求极高。智源通过开源,和更多的产业方合作,能够促进整个产业健康有序的发展。这就是智源做跨本体通用具身模型的价值所在。
从看视频到学技能
5、我似乎听到一个矛盾,您一直强调机器人模型需要泛化能力,但这需要大量数据支撑。现实中具身智能数据稀缺是公认难题,智源如何解决数据量不足与泛化需求的难题?
王仲远:具身智能目前存在循环悖论,具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。破解问题的方法有很多,不同的参与方有不同的解法。比如,硬件成本越来越低,如果能够做到几千块钱一台机器人,大家买的可能性比一百万一台机器人的可能性大很多。
真实世界的数据很重要,但是是否足以训练出来一个有价值的模型,这在学术界是有争议的,仿真数据是其中一条路径。
智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。例如,今年春节,我观察一个小女孩是怎么学习的,她刷了很多短视频,就学会了拆糖果、撕包装纸,把 5 颗蓝莓串在一根牙签上,这是没有任何大人教给她的。她通过视频学习到可能的技能,再通过实践即强化学习去尝试,可能失败了几次继续尝试,最后成功完成了任务,这就是强化学习的本质。所以,学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限,这和大模型发展路线不谋而合,基础能力到一定程度后通过强化学习进一步激发它的智能。
6、从互联网视频数据学习具身技能,实际效果如何?像您举得例子,简单的动作可以学会,但到复杂的行动时,模型还能通过这种路径实现么?
王仲远:现在具身关注点聚焦在基础模型的推理和深度思考的能力。
具身基础模型意味着训练时并不会考虑那么多任务,具体落地应用时可能针对特定的任务采集数据。
当小脑技能不那么强时,可能采集几十条、上百条数据就能使其初步具备某种程度的泛化性。当然,理想状态下是什么数据都不用采集就具备泛化能力,但是这个周期很更长,短期内无法实现。
VLA 以及真正意义上端到端具身大模型需要时间沉淀。
学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练模型能力,有可能突破具身智能的发展瓶颈,但需要一个发展过程。
开源路线和产业博弈
7、在智源大会中,智源推出 SaaS 平台和 MCP 的产业价值是什么?背后呈现什么样的系统思考?
王仲远:跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个具身智能 Saas 平台,可实现无服务器一站式轻量化机器人本体部署;同时,RoboOS 2.0 是全球首个支持 MCP 的跨本体大小脑协同框架,旨在打造具身智能领域的 " 应用商店 ",相同型号的机器人本体可直接下载和部署不同开发者开发的小脑技能,基于 RoboOS 2.0 框架完成大小脑整合,小脑技能一键注册无需开发适配,代码开放量仅为原来的 1/10。
相对于 RoboOS 1.0,RoboOS 2.0 对端到端推理链路进行了优化,整体性能提升 30%,全链路平均响应时延低至 3ms 以下,,端云通信效率提升了 27 倍;在功能层面,RoboOS 2.0 新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。RoboOS 采取的是端云协同策略,将具身大脑 RoboBrain 部署在云端,小脑模型部署在本体上。RoboBrain 2.0,除了 7B,还有 32B,模型更大,能力更强,但能够继续保持端云协同。当然,在一些实际场景里也需要将具身大脑部署在本体上。
8、当前具身智能赛道上,科研机构、大厂、创业公司各有什么优势和局限?智源作为非营利科研机构,如何在这个竞争激烈的赛道中发挥独特价值?
王仲远:智源一直有明确的定位——做高校做不了,企业不愿意做的事情,预研和探索前沿技术路径。
仅从探索的先进性来讲,智源和国内很多科研机构以及国际大厂并没有大的区别,也没有明显的劣势,但是智源的独特性在于,取得了原生多模态世界模型底层架构、脑科学多模态通用基础模型的突破等。
具身智能领域,中国独特的优势在于制造业、丰富的场景、政策支持,使得产业加速发展。智源所做的具身大模型、多模态基础模型,都正在促进整个产业更快地发展。
大语言模型相比去年发展势头更好,模型效果更佳,这是一个相对确定的技术路线,已经开始转化成产业、场景,这都是中国的优势。在一些新的方向,比如多模态、世界模型,各自有特点。
9、未来 3 年具身智能最可能在哪个领域产生突破性的规模化应用?
王仲远:我觉得未来 3 年,具身智能最可能在工业制造和服务机器人这两个领域产生突破性的规模化应用。
从技术成熟度来看,工业场景相对更容易实现突破。因为工业环境相对结构化,任务相对标准化,而且对成本的承受能力更强。我们现在看到很多具身智能创业公司都在往工业方向去做,这不是偶然的。
但我要强调的是,现在的具身智能还处在一个相对早期的阶段。我们看到很多所谓的 VLA 模型,它不具备泛化性,能够在某个特定任务上做得很好,但实际上并不能够很好地去解决其他更加泛化的任务。
具身智能要突破专用任务,到具备一定的泛化性,再到未来能够具备各种泛化性,这是一个需要发展的过程。我们坚定认为,人工智能正在加速从数字世界走向物理世界,但这个过程需要时间的沉淀。
登录后才可以发布评论哦
打开小程序可以发布评论哦