作者:周源 / 华尔街见闻
7 月 25 日,阿里巴巴开源千问 3 推理模型。
这是千问系列中首个采用混合专家 MoE(Mixture of Experts)架构的代码模型,总参数达 480B(4800 亿),原生支持 256K token 的上下文,可扩展至 1M 长度,能帮助程序员完美完成写代码、补全代码等基础编程任务,大幅提升编程工作效率。
混合专家模型(MoE)是一种高效的神经网络架构设计,核心思想是通过分工协作提升模型性能,同时控制计算成本,尤其在大模型参数规模突破千亿、万亿级后,成为平衡性能与效率的关键技术。
简单说,MoE 架构就像一个智能团队:有很多专业分工的成员(专家),但每次任务只让最适合的几个人干活(门控调度),既保证了效率,又能应对更复杂的需求。
据公开消息称,该模型性能提升显著,在知识储备、编程能力、数学运算等关键维度,与 Gemini-2.5 pro、o4-mini 等全球顶级闭源模型水平相当。
在 7 月 21 日至 7 月 25 日期间,阿里连续开源 3 款重要模型,成就斐然,在基础模型、编程模型、推理模型领域均获全球开源冠军。
这一系列动作不仅让技术开发者投入研究,也让企业决策者关注这些技术成果在实际业务中的应用,其落地可能对 AI 领域技术应用格局产生积极影响。
通义千问 3 旗舰模型发布后,通义团队持续优化推理能力。
新开源的千问 3 推理模型支持 256K 上下文长度,这一特性使其能轻松处理长篇文档和多轮对话,避免关键信息丢失。
在知识测评( ( SuperGPQA)、编程能力测评(LiveCodeBench v6)等测试中,表现接近顶尖闭源模型,在开源模型中处于前列。
相比前代模型,该模型的复杂问题拆解分析、流畅度和精准度均有明显提升:比如在处理多步骤逻辑推理题时,能更清晰地呈现推理过程。
在此期间开源的 Qwen3-235B-A22B-Instruct-2507(非思考版)性能提升明显,在 GPQA 知识测评、AIME25 数学测评等涵盖多能力维度的测试中,成绩超过 Claude4(Non-thinking)等闭源模型。
这些测试从知识覆盖范围、数学逻辑运算、代码编写准确性等多个角度,全面衡量模型的综合能力。
AI 研究机构 Artificial Analysis 经测试数据对比,评价新开源的千问 3 模型 " 在非思考基础模型中表现突出 ",这一评价基于模型在各项指标上的具体表现得出。
AI 编程领域的 Qwen3-Coder,在多语言 SWE-bench 等测试中表现超过 GPT4.1 和 Claude4,成功登顶 HuggingFace 模型总榜。
该榜单综合模型下载量、使用频率、用户评分等多方面数据排名,在行业内认可度较高。
从实际应用来看,程序员借助它生成基础品牌官网最快仅需 5 分钟,刚入行的程序员一天就能完成资深程序员一周的工作。
截至目前,阿里巴巴已开源 300 余款通义大模型,衍生模型数量超过 14 万个,超过 Meta 的 Llama 系列,成为规模巨大的开源模型家族,在开发者和企业中被广泛使用。
这些衍生模型经全球开发者根据不同场景微调,应用于教育、金融、医疗等多个行业,比如教育领域的衍生模型可辅助教师生成个性化习题,金融领域的模型能做简单的风险评估。
据海外知名模型 API 聚合平台 OpenRouter 数据显示,阿里千问 API 调用量暴涨,截至 7 月 25 日,在过去数天内调用 API 规模已突破 1000 亿 Tokens,在 OpenRouter 趋势榜上包揽全球前三,是当下最热门的模型。
这一数据反映出模型的受欢迎程度,尤其受到中小型开发团队青睐,因为其开源属性降低了使用成本,同时性能能满足项目需求。
阿里开源模型允许中国企业免费商用,这一政策降低了中小企业应用 AI 技术的门槛,让更多企业能享受到技术红利;同时向美国、法国、德国等国家的企业开放,助力欠发达国家获得本土衍生模型,丰富了 AI 开源社区的多样性,推动技术在全球范围内普及。
华尔街见闻注意到,企业落地 AI 时,往往将模型与云产品打包采购。
比如电商企业使用通义千问模型做客户服务智能回复时,会配套采购阿里云的数据库存储客户信息,以及阿里云的安全服务保障数据安全,形成生态闭环。
这种模式提升了阿里云产品的使用深度与客户关联度,增强了客户粘性。
当前,部分组织将 AI 工作负载迁移至云端,已部署云架构的企业也在积极将 AI 能力融入自身系统,这带来了对 GPU 资源、IaaS 服务(基础设施即服务:Infrastructure as a Service)的持续需求。
千问 3 系列模型的良好表现,将助力阿里云吸引更多客户,促进公有云业务发展,尤其是在需要强大 AI 算力支持的领域。
千问 3 推理模型在开源模型中表现突出,源于通义团队对技术架构和算法的持续优化。
256K 上下文长度使其在处理长文本任务时优势明显:在法律行业,能辅助审查长篇合同,精准提炼条款、权责划分与风险点,减少人工审查的疏漏;在科研领域,可快速抓取学术论文的研究背景、实验方法和核心结论,帮助研究人员节省阅读时间;在知识问答、代码生成等场景,其表现接近顶尖闭源模型。
Qwen3-235B-A22B-Instruct-2507(非思考版)的性能提升,得益于训练技术的改进。
关于这个模型的名称:"Qwen" 是阿里千问的英文标识,"3" 代表该模型属于千问系列的第 3 代版本,用于区分早期的 Qwen1 和 Qwen2 版本;"235B" 即参数规模为 2350 亿;"A22B" 通常与模型架构、训练配置或硬件适配相关(不同厂商的命名规则可能有差异)。
"Instruct" 表示模型类型是 " 指令微调模型 "(Instruct-tuned Model)。这类模型在预训练后,会通过人类指令数据进一步微调,更擅长理解和执行用户的自然语言指令(如 " 写一段代码 " 或 " 总结文档 "),而非单纯的文本续写,实用性更强。
"2507" 应该是版本日期或迭代编号,这里可能指 "2025 年 7 月 "(或类似的内部版本时间),用于区分同一基础模型的不同迭代版本(比如修复了某些问题、优化了特定任务性能的更新版)。
这个模型在预训练阶段使用的 36T tokens 数据集,涵盖书籍、代码库等多种类型,保障了知识的广度与深度,使模型能应对不同领域的知识查询;后训练通过多轮强化学习,整合非思考与思考模型,优化了综合性能,让模型在处理不同类型任务时更灵活。
Qwen3-Coder 在代码能力上的突破,来自改进的 Transformer 架构和优化的 Agent 调用流程。
其中,改进的 Transformer 架构提升了编程需求理解精度,当开发者输入 " 编写一个用户注册的后端接口 " 指令时,能准确把握接口需要实现的功能和参数要求;优化的 Agent 调用流程提高了工具调用效率,在需要调用外部代码库时,能更快速地完成匹配与调用,使其在多语言测试中领先,登顶 HuggingFace 榜单。
从生态角度看,Qwen3-Coder 吸引了大量二次开发:开发者为其添加特定行业代码库,使其在金融科技领域能生成更符合行业规范的代码;还有开发者优化其响应速度,让它更适用于实时性要求高的在线编程场景。
目前,300 余款通义大模型及 14 万个衍生模型,在科研、教育等行业广泛应用,推动 AI 技术从实验室走向实际生产生活,为各行业更高的效率提升。
登录后才可以发布评论哦
打开小程序可以发布评论哦