阿里Qwen3.7竞技场杀至国产第一！一手实测：分分钟破解奥赛难题，图文视觉全都难不倒

阿里正加速 Qwen 主模型的迭代节奏。

作者 | 陈骏达

编辑 | 云鹏

智东西 5 月 19 日报道，今天，阿里的 Qwen3.7 系列预览版模型已上线，共有 Max 和 Plus 两个版本。大模型竞技场也放出了 Qwen3.7-Max-Preview 的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上，Qwen3.7-Max-Preview 排名第 13，介于 GPT 5.5 和 Grok 4.2 之间，是这一榜单上排名最高的国产模型。

在具体的细分榜单上，Qwen3.7-Max-Preview 在数学领域排名第 7、在专家任务中排名第 9、在软件与信息技术任务中排名第 9、在编程任务中排名第 10。

▲ Arena.ai 公布 Qwen3.7-Max-Preview 的成绩

Qwen3.7-Plus-Preview 的总榜排名暂未公布。不过，在竞技场的视觉排行榜上，我们能看到 Qwen3.7-Plus-Preview 的成绩。这一模型排名第 16，得分介于 GPT 5.4 和 Gemini-3 Flash 之间。

阿里暂时并未披露 Qwen3.7 系列模型的具体技术细节，在明天的阿里云峰会上，这两款模型的更多信息或许会发布。

目前，在 Qwen Studio 上，用户已经可以体验到 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview，这两款模型采取了闭源发布的模式。Qwen3.7-Max-Preview 目前仅支持推理模式，不支持图片上传。

智东西第一时间对这两款模型进行了体验。Qwen3.7-Max-Preview 的实测涉及数学、编程、推理等多种类型的任务，Qwen3.7-Plus-Preview 的实测则以视觉任务为主。

从我们的体验来看，这一代 Qwen 模型的响应更为直接、迅速，思考节奏也比此前的 Qwen 模型更果断，在编程、视觉方面的能力有可感的提升。

体验链接：chat.qwen.ai/

01.

4 分钟做对 IMO 难题

还给我写了个能跑的 EXE

在多领域的排名中，Qwen3.7-Max-Preview 在数学方面的得分较为突出。我们拿 2025 年 IMO 的一道难题，考察它的数学能力。

Qwen3.7-Max-Preview 拿到题目后，进行了多轮分析和反复核验，最终得出了正确答案，思考速度也还不错，大概只花了 4 分钟。

Qwen 目前只提供思维链总结，我们看不到模型的真实思考过程。不过，从思维链总结中可以发现，和之前的 Qwen 模型相比，Qwen3.7-Max-Preview 似乎更自信了，反复自我核查的环节减少了一些。

Qwen3.7-Max-Preview 在编程任务上的表现也不错。不过，由于目前这款模型只能在网页中体验，我们暂时没有尝试较为复杂的开发任务。

首个编程任务是让 Qwen3.7-Max-Preview 生成一个番茄钟的桌面应用，并直接打包成 EXE。Qwen3.7-Max-Preview 没有在思考环节花许多时间，而是很快进行了开发，设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒、任务统计的应用。

Qwen3.7-Max-Preview 称它无法输出 EXE，但向我提供了逐步的指引，最终我自己完成了打包的工作。运行后，这一应用无法正常启动。

阅读报错信息后，Qwen3.7-Max-Preview 判断，报错是因为 Tkinter 底层（Tcl/Tk）在打包后，不支持带透明度的十六进制颜色代码。

问题修复后，这一桌面应用可以正常运行，核心功能都正常，但应用本身的设计比较粗糙。

用 HTML 输出内容成为最近 AI 圈的一大热点，我让 Qwen3.7-Max-Preview 的设计一个 AI 社交媒体应用的产品需求文档，并输出为 HTML 样式的网页。

拿到任务后，Qwen3.7-Max-Preview 没有输出文字版的产品需求，再转为 HTML，而是直接用 HTML 输出了所有内容。

从最终结果来看，Qwen3.7-Max-Preview 的这份产品需求文档结构完整，还配上了产品原型设计，但在产品定义上似乎有些大而全，显得没有焦点。

我们还跑了跑其他类型的任务。SVG 图绘制上，Qwen3.7-Max-Preview 能顺利生成一张动态的鹈鹕骑自行车图片，画面内容基本准确。

通用推理任务中，Qwen3.7-Max-Preview 一下看穿了这道 " 海龟汤 " 的谜底，判断出女孩是红绿色盲，并且应该不是父亲亲生的孩子。

02.

有惊无险攻克视觉版 " 洗车店难题 "

还靠一张图复刻微信

在接下来的测试中，我们主要考察了 Qwen3.7-Plus-Preview 在视觉能力上的表现。

首个实测任务是一道进阶版的洗车店难题。我们用 AI 生成了一张卫星地图风格的图片，图中只有两个地点的距离。

我告诉 Qwen3.7-Plus-Preview 左侧地点是我家，右侧是洗车店，并询问它，如果我去洗车，该走路还是开车呢？

从 Qwen3.7-Plus-Preview 的思考过程中可以看到，它准确地看到了图片中的文字和视觉信息，并评估了各种不同的选项，甚至还在某一思考阶段得出了走路才是最高效合理的方式，险些陷入险境。

不过，最后它还是给出了正确的回答，方案是开车去洗车，然后走路回家，不用在店里干等。

此前，我们在实测 DeepSeek 视觉模式过程中发现，如今的多模态大模型在看图猜地点上做得很不错，我们也让 Qwen3.7-Plus-Preview 试了试一样的题目。

看到图片后，Qwen3.7-Plus-Preview 先是通过建筑风格判断这里应该是在中国北方某大型城市，然后在依据山脉形态判断远处的山应该属于燕山余脉。最终它认为远处的山是军都山，并据此判断我所在的地方应该是昌平南邵。

这一判断其实是错误的，但离正确答案也不远了。图中的山脉是北京的凤凰岭，而我所在的观察地位于马池口镇，Qwen3.7-Plus-Preview 的猜测与正确地点相距不到 10 公里。

视觉能力还可以与编程任务结合。我随手截取了一张微信的截图，让 Qwen3.7-Plus-Preview 复刻出一个类似的网页版聊天工具。

执行过程中，即便图中没有明显的微信字样，Qwen3.7-Plus-Preview 也通过 UI 风格的视觉因素判断出这是微信，并据此规划了设计风格。

从最终的复刻效果来看，Qwen3.7-Plus-Preview 很好地把握了微信的设计特点，外观还原度很高，不过图中的按钮无法正常使用。

03.

结语：Qwen 系列模型加速迭代

今年，阿里的 Qwen 系列模型迭代速度，相较以往有明显提升。从 2026 年 2 月至今，阿里已经陆续发布了 Qwen3.5、Qwen3.6、Qwen3.7 三代模型，而 2025 年全年 Qwen 只发布了 Qwen3 和 Qwen-Next 两个主要版本。

相比过去以 " 大版本发布 " 为核心的节奏，如今的 Qwen 更像是在沿着技术路线持续快跑，通过高频预览版和能力增量更新，让模型更快进入真实场景接受检验。

宙世代

一起剪

相关标签