智东西 昨天
阿里深夜开源80B编程模型!专攻智能体,周靖人、林俊旸最新成果发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 心缘

智东西 2 月 4 日报道,今日凌晨,阿里开源了一款小型混合专家模型 Qwen3-Coder-Next,专为编程智能体(Agent)本地开发打造。

该模型总参数80B,激活参数仅3B,在权威基准 SWE-Bench Verified 上实现了超70%的问题解决率,性能媲美激活参数规模大 10-20 倍的稠密模型。

Qwen3-Coder-Next 的主要增强功能如下:

1、高效 MoE 架构:仅需激活 3B 参数,可达到与激活参数数量高出 10-20 倍的模型相当的性能,包括 37B 激活参数的 DeepSeek-V3.2、32B 激活参数的 Kimi K2.5 等,降低显存与算力需求。

2、更强智能体能力:擅长长段推理、复杂工具使用以及从执行失败中恢复,在动态编程任务中性能强大。

3、与真实世界的 IDE 多样化集成:其 256k 的上下文长度,加上对各种脚手架模板的适应性,使其能够与 OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline 等不同的 CLI/IDE 平台无缝集成,支持多样化的开发环境。

Qwen3-Coder-Next 在实际开发中能理解需求、编写代码,还能与环境交互、完成任务,可以在没有人工干预的情况下生成可玩的网页游戏,部署服务并自动测试。

阿里在编程智能体上进展不断。就在昨日,阿里云 CTO周靖人、阿里千问大模型技术负责人林俊旸署名的论文在 Arxiv 平台上发表,为推进下一代编程 Agent的发展提供了新资源和可靠方法。

简单来说,他们提出了一个可扩展的高效框架SWE-Universe,用于从 GitHub 拉取请求自动构建真实世界的软件工程(SWE)可验证环境。利用一个构建 Agent,团队将真实世界的多语言 SWE 环境的数量扩展到接近百万级(807693 个)。最后,团队将该技术应用于 Qwen3-Max-Thinking,并在 SWE-Bench Verified 测试中取得了 75.3% 的高分。

论文截图

论文地址:

https://www.arxiv.org/abs/2602.02361

回到本次面向产业推出的新模型来看,团队已正式开源 Qwen3-Coder-Next(Base)与 Qwen3-Coder-Next(Instruct)两个版本,支持研究、评测及商业应用多种场景。

Qwen3-Coder-Next 一经发布引起了广泛关注,有网友在社交平台 X 上称这一模型 " 尺寸完美 ",也有网友表示自己等便携版的 Qwen3-Coder 已经很久了。

社交平台 X 网友对 Qwen3-Coder-Next 模型的部分评论

魔搭社区地址:

https://www.modelscope.cn/collections/Qwen/Qwen3-Coder-Next

Hugging Face 地址:

https://huggingface.co/collections/Qwen/qwen3-coder-next

GitHub 地址:

https://github.com/QwenLM/Qwen3-Coder

技术报告地址:

https://qwen.ai/blog?id=qwen3-coder-next

一、实测媲美 10-20 倍激活参数稠密模型,赶超 DeepSeek

尽管激活参数规模很小,Qwen3-Coder-Next 在多项智能体评测上仍能匹敌或超过若干更大的开源模型。

该模型在 SWE-Bench、TerminalBench 2.0 和 Aider 等多个主流编程智能体基准上的表现如下。

Qwen3-Coder-Next 实测表现

使用 SWE-Agent 框架时,Qwen3-Coder-Next 在 SWE-Bench Verified 上达到 70% 以上,超过了 DeepSeek-V3.2,接近 GLM-4.7、MiniMax M2.1。

在多语言设置以及更具挑战的 SWE-Bench-Pro 基准上,Qwen3-Coder-Next 同样超过了 DeepSeek-V3.2,还较大幅度领先于 GLM-4.7、MiniMax M2.1。

在效率方面,Qwen3-Coder-Next 与同类模型在 SWE-Bench-Pro 基准上进行对比分析,每次推理仅激活 3B 参数,却能达到与激活参数量达其 10-20 倍的模型相当的基准性能,包括 37B 激活参数的 DeepSeek-V3.2、32B 激活参数的 GLM-4.7、32B 激活参数的 Kimi K2.5 等。

虽然专有的全注意力模型在绝对性能上仍保持领先优势,但 Qwen3-Coder-Next 在面向低成本智能体部署的应用场景中,仍能在效率与性能之间取得更优的帕累托权衡。

Qwen3-Coder-Next 实测表现

二、创新智能体训练配方:强化智能体训练的信号

Qwen3-Coder-Next 模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与 MoE 的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在降低推理成本的同时,提升编程与智能体能力。

Qwen3-Coder-Next 并不只依赖参数规模扩张,而是将重点放在扩展智能体训练信号(agentic training signals)上。团队使用大规模的可验证编程任务与可执行环境进行训练,让模型能够直接从环境反馈中学习,而非仅依赖静态文本。

训练过程主要包括:

1、持续预训练:在以代码与智能体为中心的大规模数据上进行。

2、监督微调:基于高质量的智能体交互轨迹,优化模型的行为。

3、领域专家训练:针对软件工程、问答、Web/UX 等特定领域,精细化专家能力。

4、专家知识蒸馏:最终将 27 个专家的能力融合至一个轻量的、可部署的单一模型。

这套 " 配方 " 的核心目标,是教会模型长时程推理、熟练使用工具,以及从执行错误中有效恢复——这些正是实用编程智能体所需的核心能力。

三、多样化集成下游应用,游戏生成测试无需人工干预

Qwen3-Coder-Next 的价值还体现在于其低部署门槛与应用体验。

得益于仅 3B 的激活参数,开发者可灵活将其集成至多种场景:作为本地 IDE 插件,实现自动修复与代码生成;构建命令行智能体(CLI Agent),通过自然语言操作终端、管理项目;部署于企业内网环境,打造私有化、高响应的编程辅助系统。" 小激活、快响应、强能力 " 为编程智能体的规模化落地提供了更具可行性的路径。

该模型可集成到多种下游应用中,覆盖 OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline 等多种开发环境。

结语:研发落地双投入,阿里加码编程智能体

编程智能体正成为阿里通义千问团队的强攻领域。Qwen3-Coder-Next 在编程智能体基准上表现强劲,展现了技术在实用场景中的应用价值。而周靖人、林俊旸署名的新论文则代表了其编程智能体新的前沿进展,形成了研发和落地两条路快步走的趋势。

展望未来,团队认为强大的智能体能力,如自主使用工具、应对难题、管理复杂任务,是更好编程智能体的关键。接下来团队计划提升模型的推理与决策能力、支持更多任务,并根据使用反馈快速迭代更新。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 阿里云 编程 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论