每日经济新闻 昨天
阿里开源新架构Qwen3-Next,模型训练成本降9成,长文本推理吞吐提升10倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

每经杭州 9 月 12 日电(记者叶晓丹)9 月 12 日,阿里通义发布下一代基础模型架构 Qwen3-Next。Qwen3-Next 针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏 MoE 架构,并对经典 Transformer 核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。

基于这一新架构,阿里通义 " 打样 " 了 Qwen3-Next-80B-A3B 系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数 80B 仅激活 3B,性能可媲美千问 3 旗舰版 235B 模型,模型计算效率大幅提升。Qwen3-Next 训练成本较密集模型 Qwen3-32B 大降超 90%,长文本推理吞吐量提升 10 倍以上,并可支持百万 Tokens(文本处理的最小单位‌)超长上下文。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 开源 吞吐量 杭州
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论