雷锋网 09-12
挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

蚂蚁集团和人民大学联合研发原生 MoE 架构扩散语言模型(dLLM ) LLaDA-MoE,在约 20T 数据上完成了从零训练 MoE 架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球 AI 社区在 dLLM 上的技术发展。 

9 月 11 日,在 2025Inclusion · 外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生 MoE 架构的扩散语言模型(dLLM)"LLaDA-MoE",中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。 

(中国人民大学、蚂蚁集团联合发布首个 MoE 架构扩散模型 LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的 MoE 在大规模语言模型中实现了与 Qwen2.5 相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了 " 语言模型必须自回归 " 的主流认知。 

实现数据显示,LLaDA-MoE 模型性能效果在代码、数学、Agent 等任务上领先于 LLaDA1.0/1.5 和 Dream-7B 等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效 3B 稠密模型的性能。

(LLaDA-MoE 性能表现) 

"LLaDA-MoE 模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把 dLLM 训扩到更大规模的路上又往前走了一步。" 蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍," 两年过去,AI 大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕 tokens   之间的双向依赖关系。"

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的 " 参数扩展、计算高效 " 优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在 MoE 架构上推出了原生的扩散语言模型 LLaDA-MoE。

蓝振忠还表示," 我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。"

据了解,蚂蚁与人大团队攻关   3 个月,在 LLaDA-1.0 基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch 提供 EP 并行等一系列并行加速技术,基于蚂蚁 Ling2.0 基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总 7B、激活 1.4B)的 MOE 架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17 项基准上平均提升 8.4%,领先 LLaDA-1.5 达到 13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证 "MoE 放大器 " 定律在 dLLM 领域同样成立,为后续 10B – 100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。 

蓝振忠还透露,蚂蚁将持续投入包括基于 dLLM 的 AGI 领域,下一阶段将联合学界和全球 AI 社区共同推动 AGI 新的突破。" 自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。" 蓝振忠如是说。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 中国人民大学 蚂蚁集团 外滩 人工智能学院
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论