智东西 前天
阿里深夜干了件大事,成本暴降90%!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 程茜

编辑 | 心缘

智东西 9 月 12 日报道,今天凌晨,阿里通义实验室正式发布下一代基础模型架构 Qwen3-Next,并训练了基于该架构的 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800 亿个参数仅激活 30 亿个参数。

Base 模型在 Qwen3 预训练数据的子集 15T tokens 上进行,仅需 Qwen3-32B 9.3% 的 GPU 计算资源,针对超过 32k 的上下文,推理吞吐量可达到 Qwen3-32B 的 10 倍以上。

同时,基于 Base 模型,阿里开源了 Qwen3-Next-80B-A3B 的指令模型(Instruct)和思维模型(Thinking),模型支持原生 262144 个 token 上下文长度,可扩展至 1010000 个 token。

其中,

Qwen3-Next-80B-A3B-Instruct 仅支持指令(非思考)模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking 仅支持思考模式,为了强制模型进行思考,默认聊天模板自动包含

指令模型的性能表现与参数规模更大的

Qwen3-235B-A22B-Instruct-2507 相当,思维模型优于谷歌闭源模型 Gemini-2.5-Flash-Thinking。

指令模型测试基准

思维模型测试基准

在架构升级方面,相比阿里 4 月底的 Qwen3 MoE 模型,新增了混合注意力机制、高稀疏度 MoE 结构、一系列训练稳定友好的优化,以及提升推理效率的多 Token 预测(MTP)机制等。

新模型已在魔搭社区和 HuggingFace 开源,开发者们也可通过 Qwen Chat 免费体验或阿里云百炼、NVIDIA API Catalog 体验 Qwen3-Next。

开发者在 Qwen 的 X 评论区称赞其新增的多 Token 预测(MTP)机制,称这是最令人印象深刻的部分。

Qwen Chat 地址:https://chat.qwen.ai

Hugging Face:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

魔搭社区:

https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

阿里云百炼:

https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近 235B 旗舰模型,推理模型超 Gemini-2.5

Qwen3-Next 模型支持原生 262144 个 token 上下文长度,可扩展至 1010000 个 token。

总的来看在性能方面,指令模型接近阿里参数规模 235B 的旗舰模型,思维模型表现优于 Gemini-2.5-Flash-Thinking。

其基座模型为 Qwen3-Next-80B-A3B-Base,仅使用 1/10 的 Non-Embedding 激活参数,在大多数基准测试中,性能表现与 Qwen3-32B-Base 相近。但其总训练成本为 Qwen3-32B-Base 的 10% 不到,并且对于超过 32K 上下文的推理吞吐是 Qwen3-32B 的 10 倍以上。

得益于其新的混合模型架构,Qwen3-Next 在推理效率方面,与 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在预填充(prefill)阶段,在 4k tokens 的上下文长度下,吞吐量接近前者的 7 倍,当上下文长度超过 32k 时,吞吐提升达到 10 倍以上。

在解码(decode)阶段,该模型在 4k 上下文下实现近 4 倍的吞吐提升,在超过 32k 的长上下文场景中能保持 10 倍以上的吞吐优势。

具体来看,其指令模型表现优于

Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,并取得了几乎与参数规模更大的 Qwen3-235B-A22B-Instruct-2507 模型相近的结果。

只有在面向大模型的综合性评测基准、高难度数学推理基准 AIME25 中,指令模型的表现略逊色于

Qwen3-235B-A22B-Instruct-2507,在编程、复杂问答与长对话的评测中表现更好。

Qwen3-Next-80B-A3B-Instruct 在 RULER 上所有长度的表现明显优于层数相同、注意力层数更多的 Qwen3-30B-A3B-Instruct-2507,甚至在 256k 范围内都超过了层数更多的 Qwen3-235B-A22B-Instruct-2507。

思维模型的表现优于预训练成本更高的

Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超过了谷歌的闭源模型 Gemini-2.5-Flash-Thinking,并在部分指标上接近阿里最新旗舰模型 Qwen3-235B-A22B-Thinking-2507。

二、混合注意力、MoE、稳定优化、多 Token 预测加持

研究人员在博客中提到,Qwen3-Next 是针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计。

Qwen3-Next 采用的是 Qwen3 36T 预训练语料的一个均匀采样子集,包含 15T tokens。其训练所消耗的 GPU Hours 不到 Qwen3-30A-3B 的 80%;与 Qwen3-32B 相比,仅需 9.3% 的 GPU 计算资源,即可实现更优的模型性能。

这一模型结构相较其 4 月底推出的 Qwen3 的 MoE 模型,新增了多种新技术并进行了核心改进,包括混合注意力机制、高稀疏度 MoE 结构、一系列训练稳定友好的优化,以及提升推理效率的多 Token 预测(MTP)机制等。

混合注意力机制:用 Gated DeltaNet(线性注意力)和 Gated Attention(门控注意力)的组合替换标准注意力,实现超长上下文长度的有效上下文建模。

研究人员发现 Gated DeltaNet 相比常用的滑动窗口注意力(Sliding Window Attention)和 Mamba2 有更强的上下文学习能力 , 并在 3:1 的混合比例下,即 75% 层使用 Gated DeltaNet,25% 层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。

同时在保留的标准注意力中,研究人员进一步引入多项增强设计,包括沿用先前工作的输出门控机制,缓解注意力中的低秩问题,将单个注意力头维度从 128 扩展至 256,仅对注意力头前 25% 的位置维度添加旋转位置编码,提高长度外推效果。

高稀疏度混合专家(MoE):在 MoE 层中实现极低的激活比率,大幅减少每个 token 的 FLOPs,同时保留模型容量。研究人员的实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练 loss 的稳定下降。

此前,Qwen3 系列的 MoE 专家激活比约为 1 比 16,Qwen3-Next 实现了 1 比 50 的激活比。

稳定性优化:包括零中心化和权重衰减 layernorm 等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。研究人员发现,注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。

多 Token 预测(MTP):提升预训练模型性能并加速推理,Qwen3-Next 特别优化了 MTP 多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的 Speculative Decoding 接受率。

结语:3B 激活参数对标旗舰模型!阿里凭架构创新为模型降本提速

Qwen3-Next 的突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速。此外结合注意力机制、MoE 设计等方面的多项架构创新,阿里通义此次实现仅激活 3B 参数模型就能对标规模更大模型的性能,使得模型在性能与效率之间找到更佳平衡点,同时为降低模型训练、推理成本提供了有效路径。

研究人员在博客提到,未来他们将持续优化这一架构并开发 Qwen3.5。与此同时近期阿里通义已经推出数个不同领域的模型,如超万亿参数的 Qwen3-Max-Preview、文生图及编辑模型 Qwen-Image-edit、语音识别模型 Qwen3-ASR-Flash 等。随着其多领域模型的持续落地与开源,阿里通义在开源社区的技术影响力正逐步增强。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 阿里云 谷歌 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论