量子位 昨天
Qwen拿半成品刷下AIME‘25满分,给别人留点面子吧……
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

半成品模型,已经刷下高难度数学推理测试AIME 25 满分战绩

开源之王 Qwen 又在深夜放大招了。

Qwen3" 超大杯 " 推理版露出庐山真面目,虽然还是 "早期预览版",仍在训练中,但在当前的 Checkpoint,已经能在 AIME 25 和 HMMT25(哈佛 -MIT 数学竞赛)中达到 100% 的准确率。

什么概念?就是一整个全场看呆的节奏:

此前,AIME 25 的最好成绩由 GPT-5 系列把持,GPT-5 Codex(high)的准确率是 98.7%,GPT-5(high)是 94.3%。而 Qwen3 235B 的成绩是 91%。

图源:Artificial Analysis

这不 Ilya 和奥特曼还在为当年的 " 真还传 " 扯头花嘛,有网友感叹:

这个完成度令人难以置信。OpenAI 还在搞抓马,而 Qwen 已经默默耕耘惊艳众人。

目前,这个 Qwen3-Max-Thinking 的早期预览版已经可以在 Qwen Chat 中免费试用,API 也已上线阿里云。官方承诺,训练还在继续,后续会持续更新版本。

技术细节方面,Qwen 官方尚未透露更多信息,但如果你感兴趣,现在就可以实测见真章。

我们已经测试了一波,以供参考。

先上经典题:小球碰撞测试。

编写一个 Python 程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律

Qwen3-Max-Thinking 一次成功,效果很不错。

既然是 AIME 25 满分选手,那么接下来,我们直接上 IMO 竞赛题。

求所有实数 α,对于任一正整数 n,整数 ⌊ α ⌋ + ⌊ 2 α ⌋ + … + ⌊ n α ⌋ 一定是 n 的倍数。(注:⌊ z ⌋表示小于或等于 z 的最大整数。例如:⌊ - π ⌋ = -4,⌊ 2 ⌋ = ⌊ 2.9 ⌋ = 2。)

面对这道有数论意味的代数题,模型思考了 5 分钟左右,给出答案:

回答正确。

完整答案如下:

前端方面,我们用简单的提示词,要求 Qwen3-Max-Thinking 用 Three.js 构建 3D 太阳系。

一开始,模型偷了个懒,只绘制了 4 颗行星,并且虽然设置了控制行星运动速度的按键,但实际并没有自转和公转的效果。

经过人工提醒之后,Qwen3-Max-Thinking 补全了八大行星,优化了前端效果,不过公转的问题还是没有解决。

需要说明的是,Thinking 模式下,Qwen3-Max 的思考时间还挺久的……如果一时间想不明白,还会出现中英文各想一遍的情况(doge)。

初步体验下来,Qwen3-Max-Thinking 有很多值得深挖的地方,不过也正如 Qwen 技术负责人林俊旸所说," 要做到面面俱到确实有点难 "。

我们还需要更多时间。工作尚未完成。

而对于网友们来说,更重要的是——

" 啥时候开源?"

体验地址:

https://chat.qwen.ai/

API 地址:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里云 python 效果 数学竞赛 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论