日前,阿里云方面正式发布并开源通义千问 Qwen3 系列模型,其中包括 Qwen3-235B-A22B 和 Qwen3-30B-A3B 两款 MoE 模型,以及 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B 六款 Dense 模型。
据了解,Qwen3 系列每款模型均斩获同尺寸开源模型 SOTA(最佳性能)。其中,Qwen3-235B-A22B 总参数超 2350 亿,激活参数超 220 亿,在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型相比表现出极具竞争力的结果。
值得一提的是,Qwen3 是国内首个 " 混合推理模型 ",其无缝集成了思考模式与非思考模式,可为用户提供灵活控制思考预算的能力。其中在思考模式下,模型会执行更多中间步骤,如分解问题、逐步推导、验证答案等,经过深思熟虑后给出最终答案。而在非思考模式下,则可提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
同时 Qwen3 的 Agent 能力也进一步优化。据了解,在评估模型 Agent 能力的 BFCL 评测中,Qwen3 创下 70.8 的新高,超越 Gemini-2.5-Pro 、o1 等顶尖模型,将大幅降低 Agent 调用工具的门槛。而且 Qwen3 原生支持 MCP 协议,并具备工具调用(function calling)能力,结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架,将大幅降低编码复杂性,实现高效的手机及电脑 Agent 操作等任务。
值得注意的是,阿里云还为部署用户提供了一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为。具体而言,用户可以在提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式,在多轮对话中模型就会遵循最近的指令。
目前,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace 等平台下载模型并商用,也可通过阿里云百炼调用 Qwen3 的 API 服务。个人用户则可通过通义 App 直接体验 Qwen3,并且夸克也即将全线接入 Qwen3。
对此阿里云方面表示,"Qwen3 代表了我们在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑……我们相信,Qwen3 的发布和开源将极大地推动大型基础模型的研究与开发。我们的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案 "。
该公司还指出," 展望未来,我们计划从多个维度提升我们的模型,包括优化模型架构和训练方法……我们认为,我们正从专注于训练模型的时代过渡到以训练 Agent 为中心的时代。我们的下一代迭代将为大家的工作和生活带来有意义的进步 "。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦