
智东西
作者 | 陈骏达
编辑 | 李水青
阿里的 " 超大杯 " 思考模型,终于现身了!
智东西 11 月 4 日报道,刚刚,阿里发布了 Qwen 3 系列中最强推理模型 Qwen3-Max-Thinking 的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在 AIME 2025 和 HMMT(哈佛 -MIT 数学锦标赛)等具有挑战性的推理基准测试中,达到 100% 的准确率。

不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了 " 超前点映 ":在 11 月 2 日的 23 点 54 分,林俊旸便发文 " 它来了,你们可以试试 ",配图是开启思考模式的 Qwen3-Max。

Qwen 团队并未透露 Qwen3-Max-Thinking 早期预览版的更多信息,模型也并未在 Hugging Face、魔搭等平台开源。Qwen 团队称,随着训练的继续,更多版本将会推出。
用户可在 Qwen Chat 和阿里云 API 中试用 Qwen3-Max-Thinking 早期预览版。API 调用界面介绍,Qwen3-Max-Thinking 早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。
体验链接:
chat.qwen.ai/?thinking=true
API 调用:
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
值得注意的是,Qwen3-Max-Thinking 早期预览版仅支持文本到文本这一模态,并选择以输出 " 限时免费 " 的模式对外提供 API 服务。

我们在体验中发现,Qwen3-Max-Thinking 早期预览版的确挺费 token 的,如果不是限时免费输出的话,使用成本或许会较为高昂。
不过,该问题是可以用自带的思考预算控件解决的,用户可以在 1024-81920 个 token 的思考预算区间内随意切换,直接控制模型的推理长度。

智东西在 Qwen Chat 中体验了 Qwen3-Max-Thinking 早期预览版的能力。要使用这一模型,用户需要在左上方选择 Qwen3-Max,并开启输入框中的 Thinking 模式。

既然 Qwen3-Max-Thinking 早期预览版在 AIME 2025 上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。
可以看到,Qwen3-Max-Thinking 早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。

这一过程耗时大概 4-5 分钟,不过确实保证了答案的完全正确。将这一结果放到 token 计数器后,大致计算出其对应的 token 用量在 1.2 万 -1.5 万之间。

在智能体编程任务上,我们尝试让 DeepSeek-V3.2 和 Qwen3-Max-Thinking 早期预览版完成相同的任务——开发一个开源项目分享网站的 HTML 原型。
Qwen3-Max-Thinking 早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。

对于其输出的网站结果而言,Qwen3-Max-Thinking 早期预览版消耗的 token 数量明显偏多。反映到代码数量上,这一模型使用了整整 1417 行代码完成了任务。
开启深度推理的 DeepSeek-V3.2 生成了如下网页预览,代码源文件中包含 787 行代码。

在常识推理类任务上,Qwen3-Max-Thinking 早期预览版能很容易地绕开逻辑陷阱。

不过,平心而论,此类题目 Qwen-3-Max 也能轻松解决,只需要几十个字。

已经有不少网友用上了 Qwen3-Max-Thinking 早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为 " 商务 ",几乎避开了所有 " 人性化 " 的情感。

也有网友在自己打造的 "randombench" 基准测试上,考察了 Qwen3-Max-Thinking 早期预览版的表现。Qwen3-Max-Thinking 早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有 GPT-5(思考模式)和 Grok 4 达到了相同的水准。

不过,广大网友们最关心的问题,或许还是:到底啥时候上 Hugging Face?
结语:Qwen3-Max 系列模型,期待拉满
阿里的 Qwen3-Max 系列模型已经成为当前 AI 业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。
今年 9 月 5 日,阿里上线 Qwen3 系列最强模型 Qwen3-Max 的预览版本,这也是阿里迄今为止最大的模型,参数量超 1 万亿。
此番发布的 Qwen3-Max-Thinking 早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。


登录后才可以发布评论哦
打开小程序可以发布评论哦