2026 年 5 月 26 日凌晨,全球权威三方编程榜单Code Arena正式放榜,一则消息震动了整个 AI 界——阿里最新旗舰大模型Qwen3.7-Max 以 1541 分的成绩,超越 GPT-5.5、Gemini-3.5-Flash 等一众国际主流模型,在大模型厂商中排名全球第二,仅次于 Claude 系列。Qwen3.7-Max 也是目前榜单中唯一突破 1540 分大关的国产大模型,一举打破此前由 Claude-Opus-4.7 和 4.6 长期主导的前四格局。
一、为什么是 Code Arena?
或许有人会问:市面上那么多榜单,凭什么 Code Arena 最有分量?
答案在于它的评测方式与众不同。传统的代码基准测试往往考核孤立的代码片段生成或标准算法题,模型只需跑通基础逻辑就能取得高分,距离真实的工程开发还有很大距离。而Code Arena 则完全改变了游戏规则——由开发者亲自出题,要求模型从零开始构建功能完整、可交互运行的 Web 应用程序;所有产出内容经匿名处理后,由真实用户进行两两对比投票,最终依据大规模盲测反馈生成综合排名。
一句话概括:Code Arena 不考 " 会不会写函数 ",而是考 " 能不能真正把活儿干完 "。也正因高度贴近工程实践、全程脱离厂商干预,Code Arena 被广泛视为全球公信力最强的 AI 编程能力评测之一。

二、Qwen3.7-Max 全线战绩一览
除了 Code Arena 的 1541 分之外,Qwen3.7-Max 的亮眼表现远不止这一项。
在全球开发者盲测投票中,Qwen3.7-Max 编程能力位居前四,跻身全球编程模型第一梯队。与此同时,在Arena AI 全球大模型盲测总榜中,Qwen3.7-Max 位列国产模型第一,综合性能已接近 GPT、Claude 和 Gemini 的最强版本,在数学、编程、专家应用等细分领域均进入了全球前十。
在更专业的 Agent 能力测试中,Qwen3.7-Max 同样表现抢眼:
评测基准
Qwen3.7-Max 表现
竞品对比
MCP-Atlas
76.4 分
超越 Claude-Opus-4.6(75.8 分)
MCP-Mark
60.8 分
超越 GLM-5.1(57.5 分)
SpreadSheetBench-v1
87.0 分
行业顶尖水平
Terminal Bench 2.0
69.7 分
超越 DeepSeek-v4-pro-Max
GPQA Diamond
92.4 分
超越 Claude-Opus-4.6(91.3 分)
SWE-Verified
80.4 分
与业界顶尖持平
数据来源:
在特定专业场景中,Qwen3.7-Max 甚至已经超越了部分 Claude Opus 4.6 的细分项得分,这是国产大模型在核心 Agent 能力上首次与国际顶尖水平实现 " 正面硬刚 "。
三、硬核实验:35 小时无人干预,千问 " 独自攻克 " 芯片难题
如果说榜单分数展示的是模型 " 能写代码 " 的上限,那么接下来这个实验,才是真正让业内刮目相看的时刻。
在一项极限压力测试中,阿里向 Qwen3.7-Max 抛出了一个前所未有的挑战:在一个模型从未接触过的全新硬件平台——平头哥真武 M890 芯片上,自行优化 AI 推理内核。在没有任何性能分析数据、硬件文档或新架构示例内核的情况下,千问 3.7 仅从包含任务描述、参考实现和评测脚本的空白工作空间出发,开始了一场 " 一个人的战争 "。
结果令人震撼——
Qwen3.7-Max 连续自主运行35 小时,独立进行了432 次内核评估和1158 次工具调用,完全自主地完成了代码编写、编译、性能分析到迭代改进的全部流程。更令人称奇的是,即便在独立运行超过 30 小时后,该模型依然能发现有效的优化点,甚至主动发起了一次关键的架构重设计。
最终,经 Qwen3.7-Max 优化后的推理内核,在平头哥新 AI 芯片上跑出了10 倍的加速比,相比之下,前代模型在该任务中仅能达到 1.1 倍的加速效果。
这一实验充分证明了 Qwen3.7-Max 具备真正的长周期自主执行能力——它不再只是一个 " 回答问题 " 的助手,而是一个可以像资深工程师一样进行长程规划、试错、重构并最终交付成果的智能体基座模型。
四、独家突破:打破框架 " 过拟合 "
Qwen3.7-Max 能够同时征服榜单和实战,离不开一项关键的技术创新—— " 任务 - 运行框架 - 验证器 " 正交解耦设计。
简单来说,此前的很多 AI 模型存在一个顽疾:过度依赖特定的开发框架(如 Claude Code、OpenClaw 等),一旦脱离熟悉的框架环境,能力就会大幅退化。而Qwen3.7-Max 通过正交解耦技术,彻底解决了这个问题。
在 QwenClawBench 与 CoWorkBench 评测中,无论评估时使用何种运行框架,Qwen3.7-Max 均展现出强劲且一致的性能,显著超越前代系列模型,证实了该模型已真正掌握了解决问题的能力,而非仅仅 " 记住 " 了某种框架的使用方式。
这一底层突破使其在面向前端原型到复杂软件工程的全场景专业工作流中,都能够实现端到端的高质量交付——从数小时内独立完成原本专业团队耗时两周的复杂项目,到企业级办公自动化的全流程覆盖。
五、" 双模式 " 与 MCP 集成:为开发者和企业双向护航
作为面向智能体时代打造的全能基座模型,Qwen3.7-Max 在技术架构上的另一大创新是 " 双模式推理 "。
模式
适用场景
特点
Think 模式
复杂代码架构、深度推理
模型进行深度规划和思考,类似 " 系统二 " 思维
No-Think 模式
简单代码补全、快速响应
提供低延迟、高效率的反馈,兼顾速度与成本
模式划分:帮助开发者精准平衡性能与成本——复杂工程开启 Think 模式深度推理,日常小任务切到 No-Think 模式飞速响应。
同时,Qwen3.7-Max 原生支持 MCP(模型上下文协议)集成和多智能体协作,与Claude Code、OpenClaw、Qwen Code等主流智能体框架实现即插即用的无缝集成,无论是复杂的多文件软件工程,还是自动化办公流中协调数十个微服务,都能保持稳定的推理与执行。
六、开发者怎么说?
产品好不好,最终取决于开发者的真实体验。Qwen3.7-Max 发布后,迅速在全球引发强烈反响。大量独立开发者、AI 创作者和企业用户纷纷在社交媒体上分享了他们的使用感受——
多位开发者评价 :" 长程自主执行能力令人印象深刻 "" 是真正能把事情做完的智能体基座模型 ";
AI 机构的横评 更是给出了有力佐证:在相同提示词下同步对比 Qwen3.7-Max、Claude-4.7 与 GPT-5.5,发现千问 3.7 较上代的性能提升幅度最大、推理成本最低,在 输出速度和生成质量 两个维度上相较其他模型均有明显优势。
来自一线用户的真实反馈,无疑比任何宣传都更具说服力—— Qwen3.7-Max 从 " 能写代码 " 到 " 能做事 " 的升级,正在被越来越多的开发者所验证。
结语:国产大模型的新高度
从 5 月 20 日正式发布到 5 月 26 日凌晨 Code Arena 放榜,短短一周时间内,Qwen3.7-Max 以 1541 分登顶国产编程模型榜首、厂商排名全球第二的优异表现完成了实力验证。
而真正让行业关注的,或许并非只是这一串耀眼的数字,而是它背后所展现出的深层变化——国产大模型正在从对标分数的 " 追赶者 " 转变为定义工程实践标准的 " 引领者 " 。35 小时芯片优化的极限实验,正交解耦的架构突破," 数小时交付两周工程 " 的真实生产力……这些正在将 AI 编程的想象空间从一个聊天的助手,推向一个能够自己动手完成任务、真正交付产出的工程智能体。
对于开发者而言,Qwen3.7-Max 即将通过阿里云百炼平台开放 API 接入,无论你是一名 AI 应用开发者,还是一名期待用 AI 重塑工作效率的软件工程师,你现在都有机会亲身验证:当代码能够自己写代码时,你的开发效率极限究竟在哪里?


登录后才可以发布评论哦
打开小程序可以发布评论哦