智东西 12小时前
阿里Qwen3.7竞技场杀至国产第一!一手实测:分分钟破解奥赛难题,图文视觉全都难不倒
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

阿里正加速 Qwen 主模型的迭代节奏。

作者 | 陈骏达

编辑 | 云鹏

智东西 5 月 19 日报道,今天,阿里的 Qwen3.7 系列预览版模型已上线,共有 Max 和 Plus 两个版本。大模型竞技场也放出了 Qwen3.7-Max-Preview 的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上,Qwen3.7-Max-Preview 排名第 13,介于 GPT 5.5 和 Grok 4.2 之间,是这一榜单上排名最高的国产模型。

在具体的细分榜单上,Qwen3.7-Max-Preview 在数学领域排名第 7、在专家任务中排名第 9、在软件与信息技术任务中排名第 9、在编程任务中排名第 10。

▲ Arena.ai 公布 Qwen3.7-Max-Preview 的成绩

Qwen3.7-Plus-Preview 的总榜排名暂未公布。不过,在竞技场的视觉排行榜上,我们能看到 Qwen3.7-Plus-Preview 的成绩。这一模型排名第 16,得分介于 GPT 5.4 和 Gemini-3 Flash 之间。

阿里暂时并未披露 Qwen3.7 系列模型的具体技术细节,在明天的阿里云峰会上,这两款模型的更多信息或许会发布。

目前,在 Qwen Studio 上,用户已经可以体验到 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview,这两款模型采取了闭源发布的模式。Qwen3.7-Max-Preview 目前仅支持推理模式,不支持图片上传。

智东西第一时间对这两款模型进行了体验。Qwen3.7-Max-Preview 的实测涉及数学、编程、推理等多种类型的任务,Qwen3.7-Plus-Preview 的实测则以视觉任务为主。

从我们的体验来看,这一代 Qwen 模型的响应更为直接、迅速,思考节奏也比此前的 Qwen 模型更果断,在编程、视觉方面的能力有可感的提升。

体验链接:chat.qwen.ai/

01.

4 分钟做对 IMO 难题

还给我写了个能跑的 EXE

在多领域的排名中,Qwen3.7-Max-Preview 在数学方面的得分较为突出。我们拿 2025 年 IMO 的一道难题,考察它的数学能力。

Qwen3.7-Max-Preview 拿到题目后,进行了多轮分析和反复核验,最终得出了正确答案,思考速度也还不错,大概只花了 4 分钟。

Qwen 目前只提供思维链总结,我们看不到模型的真实思考过程。不过,从思维链总结中可以发现,和之前的 Qwen 模型相比,Qwen3.7-Max-Preview 似乎更自信了,反复自我核查的环节减少了一些。

Qwen3.7-Max-Preview 在编程任务上的表现也不错。不过,由于目前这款模型只能在网页中体验,我们暂时没有尝试较为复杂的开发任务。

首个编程任务是让 Qwen3.7-Max-Preview 生成一个番茄钟的桌面应用,并直接打包成 EXE。Qwen3.7-Max-Preview 没有在思考环节花许多时间,而是很快进行了开发,设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒、任务统计的应用。

Qwen3.7-Max-Preview 称它无法输出 EXE,但向我提供了逐步的指引,最终我自己完成了打包的工作。运行后,这一应用无法正常启动。

阅读报错信息后,Qwen3.7-Max-Preview 判断,报错是因为 Tkinter 底层(Tcl/Tk)在打包后,不支持带透明度的十六进制颜色代码。

问题修复后,这一桌面应用可以正常运行,核心功能都正常,但应用本身的设计比较粗糙。

用 HTML 输出内容成为最近 AI 圈的一大热点,我让 Qwen3.7-Max-Preview 的设计一个 AI 社交媒体应用的产品需求文档,并输出为 HTML 样式的网页。

拿到任务后,Qwen3.7-Max-Preview 没有输出文字版的产品需求,再转为 HTML,而是直接用 HTML 输出了所有内容。

从最终结果来看,Qwen3.7-Max-Preview 的这份产品需求文档结构完整,还配上了产品原型设计,但在产品定义上似乎有些大而全,显得没有焦点。

我们还跑了跑其他类型的任务。SVG 图绘制上,Qwen3.7-Max-Preview 能顺利生成一张动态的鹈鹕骑自行车图片,画面内容基本准确。

通用推理任务中,Qwen3.7-Max-Preview 一下看穿了这道 " 海龟汤 " 的谜底,判断出女孩是红绿色盲,并且应该不是父亲亲生的孩子。

02.

有惊无险攻克视觉版 " 洗车店难题 "

还靠一张图复刻微信

在接下来的测试中,我们主要考察了 Qwen3.7-Plus-Preview 在视觉能力上的表现。

首个实测任务是一道进阶版的洗车店难题。我们用 AI 生成了一张卫星地图风格的图片,图中只有两个地点的距离。

我告诉 Qwen3.7-Plus-Preview 左侧地点是我家,右侧是洗车店,并询问它,如果我去洗车,该走路还是开车呢?

从 Qwen3.7-Plus-Preview 的思考过程中可以看到,它准确地看到了图片中的文字和视觉信息,并评估了各种不同的选项,甚至还在某一思考阶段得出了走路才是最高效合理的方式,险些陷入险境。

不过,最后它还是给出了正确的回答,方案是开车去洗车,然后走路回家,不用在店里干等。

此前,我们在实测 DeepSeek 视觉模式过程中发现,如今的多模态大模型在看图猜地点上做得很不错,我们也让 Qwen3.7-Plus-Preview 试了试一样的题目。

看到图片后,Qwen3.7-Plus-Preview 先是通过建筑风格判断这里应该是在中国北方某大型城市,然后在依据山脉形态判断远处的山应该属于燕山余脉。最终它认为远处的山是军都山,并据此判断我所在的地方应该是昌平南邵。

这一判断其实是错误的,但离正确答案也不远了。图中的山脉是北京的凤凰岭,而我所在的观察地位于马池口镇,Qwen3.7-Plus-Preview 的猜测与正确地点相距不到 10 公里。

视觉能力还可以与编程任务结合。我随手截取了一张微信的截图,让 Qwen3.7-Plus-Preview 复刻出一个类似的网页版聊天工具。

执行过程中,即便图中没有明显的微信字样,Qwen3.7-Plus-Preview 也通过 UI 风格的视觉因素判断出这是微信,并据此规划了设计风格。

从最终的复刻效果来看,Qwen3.7-Plus-Preview 很好地把握了微信的设计特点,外观还原度很高,不过图中的按钮无法正常使用。

03.

结语:Qwen 系列模型加速迭代

今年,阿里的 Qwen 系列模型迭代速度,相较以往有明显提升。从 2026 年 2 月至今,阿里已经陆续发布了 Qwen3.5、Qwen3.6、Qwen3.7 三代模型,而 2025 年全年 Qwen 只发布了 Qwen3 和 Qwen-Next 两个主要版本。

相比过去以 " 大版本发布 " 为核心的节奏,如今的 Qwen 更像是在沿着技术路线持续快跑,通过高频预览版和能力增量更新,让模型更快进入真实场景接受检验。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 阿里云 数学 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论