智东西 06-06
智源全新悟界系列大模型亮相!剑指AI加速数字世界、物理世界融合
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 程茜

编辑 | 漠影

智东西 6 月 6 日报道,今日,智源研究院重磅发布全新悟界系列大模型,是其对 AI 从数字世界迈向物理世界技术趋势判断交出的最新答卷。

智源研究院的悟道系列大模型拉开了中国大模型时代,如今 AI 加速从数字世界迈向物理世界,悟界系列大模型已然成为其面向 AI 下一阶段发展的代表。

与此同时,智源研究院作为链接产业界和学术界的重要平台,其举办的智源大会已经发展成 AI 领域的顶级学术盛会。

今年第七届智源大会更是顶级大咖云集,包含图灵奖得主、深度学习代表人物 Yoshua Bengio,图灵奖得主、强化学习之父 Richard S. Sutton,图灵奖得主 Joseph Sifakis、姚期智 4 位图灵奖得主,30 余位企业创始人或 CEO、100 余位青年科学家、200 余位 AI 顶尖学者和产业专家,他们将开展 180 多场 AI 主题分享。

一、悟界系列 4 大模型亮相,横贯微观生命、具身智能

大模型正在经历从数字世界向物理世界的演进,悟界系列大模型应运而生,以拓展 AI 与物理世界交互的边界。

从微观生命体到具身智能体,悟界系列大模型共包含 4 款大模型。

1、原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ

原生多模态世界模型 Emu3,基于下一个 token 预测范式统一多模态学习,使模型更易扩展至更多模态。同时其通过研发新型视觉 tokenizer 将图像 / 视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,可实现文本、图像、视频的任意组合理解与生成。

脑科学领域的多模态通用基础模型见微 Brainμ,基于 Emu3 的底层架构,将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,这使得单一模型就能完成多种神经科学下游任务,实现跨模态、跨任务、跨个体的统一通用建模。

目前,Brainμ 整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过 100 万单位的神经信号预训练。

智源研究院已经与国内顶尖脑科学团队、脑疾病研究团队、脑机接口应用团队建立了合作,例如与脑机接口公司强脑科技合作实现了首次在便携式消费级脑电系统上重建感觉信号。

2、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0

具身智能作为 AI 与宏观物理世界交互的一个关键载体,智源研究院发布的跨本跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的 " 应用商店 " 生态。

RoboOS 2.0 实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的 1/10。相比于 1.0,RoboOS 2.0 对端到端推理链路进行了系统级优化,整体性能提升达 30%,全链路平均响应时延低至 3ms 以下,端云通信效率提升 27 倍。

具身大脑 RoboBrain 2.0 是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。

RoboOS 2.0 与 RoboBrain 2.0 已全面开源,包括框架代码、模型权重、数据集与评测基准。

3、全原子微观生命模型 OpenComplex2

除了宏观世界,物理世界还有一大重要组成部分是微观世界。悟界系列的第四大模型正是全原子微观生命模型 OpenComplex2。

OpenComplex2 实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(Energy Landscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布。

二、从探索模型方法论到突破虚实世界边界,智源研究院加速 AI 解决实际问题布局

从悟道到悟界系列大模型的发布,是智源研究院探索实现 AGI 的重要一步。

去年智源大会上,王仲远就谈到了对大模型技术路径演进的看法:AGI 可能的技术演化路径将会从大语言模型到统一的多模态大模型,然后进入物理世界、微观世界形成世界模型,最终推动 AGI 时代到来。

时至今日,这一判断也在实践中得到了验证。AI 长远的目标是被用来解决实际问题,如今大模型研发已经进入解构现实世界的新阶段。

可以看出,作为引领 AI 产业发展的顶尖机构,智源研究院成立至今已经多次预见 AI 的发展机遇。

2020 年,智源研究院成立百人技术攻关团队,至今已先后发布悟道 1.0、2.0、3.0 系列模型,构建了全栈大模型技术开源体系,并孵化出国内数家知名大模型创企;如今站在 AI 产业发展的关键转折点,悟界系列大模型应运而生。

从 " 悟道 " 与 " 悟界 " 命名也可以更为直观感受到,悟道的 " 道 " 代表智源研究院对大语言模型系统化方法论的探索,悟界的 " 界 " 则代表对虚实世界边界的不断突破。

更为重要的是,即使 AI 产业发展的重心不断变化,开源一直是智源研究院坚持的底色。

智源研究院打造的覆盖模型、算法、数据、评测、系统的大模型开源技术体系 FlagOpen,截至目前已开源约 200 个模型和 160 个数据集,其中,模型全球总下载量超 6.4 亿次,开源数据集下载量近 113 万次,开源项目代码下载量超 140 万次。

其中,在开源模型方面,通用向量模型 BGE 于去年 10 月成为中国首个登顶 Hugging Face 月度下载排行榜榜首的开源模型,同时也是截至去年年底的 2023 年所有发布模型的全球下载量冠军;开源轻量长视频理解模型 Video-XL 2,支持在单张显卡上高效处理长达万帧的视频输入;开源全能视觉生成模型 OmniGen,采用极简架构,仅由大模型基座和 VAE 模块构成,可降低了开发和部署成本,并通过广泛的指令学习,实现了视觉生成能力的高度集成。

此外,智源研究院构建的 AI 系统软件栈 FlagOS 实现升级,新增了统一编译器 FlagTree、统一通信库 FlagCX、自动发版平台工具 FlagRelease,实现对 11 家国内外厂商的 18 款异构 AI 硬件的统一支持。

将视野放大到整个 AI 产业,我们可以更为清晰的观察到智源研究院当下布局在产业中的重要性。

目前,诸多企业都在朝着多模态基础模型、具身智能等方向进行探索,但痛点在于技术路线多元且并不收敛。

因此,智源研究院在此基础上,更看重对不同技术路线、方法的探索,当其研究达到一定成果就会通过开源的方式让企业来做。

结语:全球大模型先锋集结

一直以来,智源研究院都走在 AI 产业技术路线探索的前沿,并通过构建开源开放的生态推动学术界与产业界的发展。如今,AI 产业正经历从数字世界走向物理世界,智源研究院的角色进一步凸显。

而北京智源大会作为 "AI 内行学术盛会 ",不仅是智源研究院成果发布与探索的展现平台,更承载着海内外研究者分享研究成果、探寻前沿知识、交流实践经验的重要意义。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 物理 神经科学 图灵
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论