智源研究院院长王仲远
蓝鲸新闻 6 月 6 日讯(记者 武静静)2025 年 6 月 6 日,第七届智源大会在北京召开,智源研究院正式发布了 " 悟界 " 系列大模型,聚焦多模态、脑科学、具身智能与微观生命分子建模四大核心方向。
创立于 2018 年的智源研究院,作为中国新型科研机构的探索样本,它不仅开创了国产大模型的技术路线,也激活了中国 AI 大模型创业生态的第一波热潮——它催生了国内最早一批专注于大模型的创业公司,也影响了以杨植麟、岂凡超、曾国洋等人为代表的新一代 AI 大模型创业者。他们大多曾参与 " 悟道 1.0" 与 "2.0" 的研发,在项目中完成从学生到研究者的转变,成为中国 AI 大模型版图中的重要力量。
今天的 " 悟界 ",是继 " 悟道 " 之后智源迈出的又一步。不同于以往聚焦语言、图像等数字世界," 悟界 " 面向具身智能和世界建模,将探索延伸至真实世界中的感知、决策与交互。
此次,「蓝鲸科技」采访了智源研究院院长王仲远,围绕 " 悟界 " 背后的研究逻辑、技术布局与未来方向展开深入对话,了解智源对下一代通用人工智能 " 底座能力 " 的一次系统性构思与前瞻性思考。
大模型技术还远没有到发展的尽头,下一步是探索物理世界
" 界 " 代表着对虚实世界边界的突破,代表着对物理世界的赋能,以及在物理 AGI 方向上的迈进,王仲远说道。
据介绍,此次发布的 " 悟界 " 系列涵盖原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brain μ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0 以及全原子微观生命模型 OpenComplex2,几乎覆盖了当下 AI 与人类核心认知结构、现实物理世界交互及生命本质建模的前沿方向,也是中国大模型再一次面向通用人工智能(AGI)一次探索和实践。
我们了解到,此次智源推出的 " 悟界 " 系列模型,首次系统性地覆盖多模态、脑科学、具身智能与微观生命分子建模,展现出构建 " 世界模型 " 的路径图,也体现了中国 AI 方面系统化创新能力。
王仲远告诉「蓝鲸科技」,"百模大战 " 竞争的背后,更多聚焦在大语言模型层面,几乎都仍局限在数字世界的语义理解与生成范畴。" 然而,大语言模型的发展正面临增长瓶颈。一方面,训练依赖的互联网数据趋于饱和,模型性能提升趋缓;另一方面,多模态融合仍存在‘此消彼长’的问题——引入图像、视频等模态后,反而可能削弱原有语言能力,模型整体表现不升反降。"
这正是 " 悟界 " 系列试图解决的问题,王仲远表示,要让 AI 真正从 " 只能聊天 " 走向 " 能理解、能行动 " 的阶段,关键在于让它真正进入现实世界。为此,智源不再只依靠互联网文本数据,而是引入更多来自真实世界的信息,比如图像、声音、三维空间结构,甚至是人脑的活动信号。
智源正在探索一种叫 " 原生多模态 " 的新方法——简单来说,就是从模型训练的第一步开始,就同时使用多种类型的数据,让 AI 从一开始就具备综合理解各种信息的能力。
Emu3 原生多模态世界模型就是这种做法的代表,它可以把文字、图片、视频转化为同一种 " 语言 " 来处理,这样就能更顺畅地理解和生成不同形式的内容,让 AI 变得更聪明、更灵活。此外,智源推出的见微 Brain μ 模型,就能把脑信号转化为模型可以处理的 " 语言 ",并与图像和文本进行跨模态多向映射。
更进一步,大模型未来需要具备对空间位置和时间变化的感知能力,比如判断一个杯子是否快要从桌边掉下去。这类时空理解对于未来 AI 机器人在现实中完成任务至关重要。王仲远认为,这种面向物理世界的原生多模态模型,将是实现真正 " 物理 AGI" 的路径之一。
具身智能仍处于探索期,类似大语言模型的 GPT-3 之前阶段
随着 AI 正从数字世界走入真实空间,具身智能正在成为当下另一个热议的话题和技术攻坚领域,也在陆续诞生各种创业公司。
王仲远向「蓝鲸科技」谈到:" 具身智能目前仍处于技术探索的早期阶段,类似于大模型在 GPT-3 之前的摸索期。"
他提到,当下具身智能面临多重挑战。一方面,核心技术路径尚未明确,如仿真数据利用和 " 大小脑 " 融合架构等仍在探索中,技术复杂度远超智能驾驶。另一方面,数据采集困难是具身智能发展的重要瓶颈。真机数据获取受限于现有模型能力,形成 " 循环悖论 ",加之真实世界多模态数据虽然丰富,却难以高效利用。
此外,软硬件协同复杂,特别是跨本体 " 大小脑 " 融合尚未成熟,导致产业落地周期长,缺乏明确的规模化应用。" 未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天。" 王仲远说。
智源发布的具身大脑 RoboBrain 2.0 是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越具身智能领域主流大模型。
RoboBrain2.0 官网:https://superrobobrain.github.io
王仲远透露," 在数据训练的技术路径上,智源借鉴了大语言模型的发展思路,更多依靠的是互联网数据帮助机器人学习智能 ... 再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限。"
他借用了一个视频比喻:" 就像一个小朋友先通过看短视频学会怎么拆糖果,再通过实际操作(强化学习)逐步掌握这项技能。"
此外,为了让大模型更好的用起来,此次智源发布了跨本体具身大小脑协作框架 RoboOS 2.0,这是全球首个基于具身智能 SaaS 平台,可以支持 MCP 的跨本体具身大小脑协作框架,目标是构建具身智能领域的 " 应用商店 " 生态。
同时,RoboOS 2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的 " 应用商店 " 生态。
王仲远详细介绍称,"RoboOS 2.0 实现了小脑技能的免适配注册机制,显著降低开发门槛。典型场景下,相关代码量仅为传统手动注册方式的 1/10。这使得开发者能够更容易地贡献和分享小脑技能。"
目前,RoboOS 2.0 与 RoboBrain 2.0 已全面开源,包括框架代码、模型权重、数据集与评测基准。且智源研究院已与全球 20 多家具身智能企业建立战略合作关系。
对于具身智能接下来的发展趋势,王仲远谈到,具身智能的大规模商用落地尚需时日。未来 3 年内,突破性的规模化应用最可能首先出现在特定、相对封闭的场景,尤其有大量重复、枯燥甚至危险的任务,非常适合具身智能第一波切入。
登录后才可以发布评论哦
打开小程序可以发布评论哦