智东西 09-06
超1万亿参数!阿里史上最大最强模型免费上线,实测几秒完成程序员半天工作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 云鹏

智东西 9 月 6 日报道,昨夜,阿里上线 Qwen3 系列最强模型 Qwen3-Max 的 Preview 版本,这也是阿里迄今为止最大的模型,参数量超 1 万亿。该模型目前已登陆阿里百炼平台,且在通义千问应用及 Qwen Chat 上免费可用。

据百炼平台介绍,Qwen3-Max-Preview 相较 2.5 系列整体通用能力有大幅度提升,中英文通用文本理解能力、复杂指令遵循能力、主观开放任务能力、多语言能力、工具调用能力均显著增强;模型知识幻觉更少。

就在前日,Qwen 官方 X 账号预告了即将推出 Qwen3 家族中最强大、最聪明的一员。一天后,这一模型正式上线,其测评结果也随之公布。

据悉,Qwen3-Max-Preview 在通用知识(SuperGPQA)、数学推理(AIME25)、编程(LiveCodeBench v6)、人类偏好对齐(Arena-Hard v2)以及综合性能力评估(LiveBench)评测中,超越了 Claude-Opus 4(Non-Thinking),以及 Kimi-K2、DeepSeek-V3.1 和阿里此前的开源最佳

Qwen3-235B-A22B-Instruct-2507。

在 AI 模型聚合平台 OpenRoute 上,Qwen3-Max 的介绍提及:其在推理、指令执行、多语言支持和长尾知识覆盖方面均有显著改进;同时在数学、编程、逻辑和科学任务中提供了更高的准确率。该模型支持超过 100 种语言,具有更强大的翻译和常识推理能力,并针对检索增强生成 (RAG)和工具调用进行了优化,但并未包含专门的 " 思考 " 模式。

智东西第一时间在通义千问网页端上对 Qwen3-Max-Preview 进行了体验,发现模型在文本理解以及数学、编程能力上效果出色,且响应速度很快。

首先让 Qwen3-Max-Preview 生成一个小球碰撞模拟器,我们输入提示词:

" 一个圆里面有两个小球,一个黑色,一个白色,白色的球随即位置自由下落,碰到边界会反弹,同时再生成一个随机位置的白色小球,黑色小球碰到边界会反弹,碰到白色的球会变大一点,请模拟一下。"

只见 Qwen3-Max-Preview 很快输出了这个程序,模拟出了两类球的运动过程,最终黑色球膨胀至把白球吞噬。

当我们把难度提升,让 Qwen3-Max-Preview 进行一个力量与速度种群模拟,并通过连续提问不断优化这个模拟器,发现 Qwen3-Max-Preview 能够通过简单的提示词实现快速而准确的模拟,能在几秒钟之内完成一个成熟程序员可能需要大半天才能完成的工作。

我们输入提示词:" 有两个种群,种群 a 注重力量的发展,种群 b 注重速度的发展,请模拟一下两个种群之间的相互作用并给出说明。"

如下图所示,即便我给出的提示词非常模糊,Qwen3-Max-Preview 依然理解到我的意思,并给出了较准确的模拟。

在上述模拟中,我发现速度型种群被干掉的太快了,于是进一步希望它们能够具备 " 逃跑 " 能力。我输入提示词:" 注重速度的种群被干掉的太快了,他们每个个体都应该具备一定的躲避危险的能力。"

而后,Qwen3-Max-Preview 输出了以下 " 力量与速度种群模拟(增强版)",准确模拟出了具有躲避危险能力的小球,出现 " 谁也干不掉谁 " 的状况。

只会逃跑不会反击,早晚还是被干掉。然后我要求速度型种群具有协作进攻能力,输入提示词:

" 当速度型种群团结起来的时候,可以可以干掉单个的力量型个体,请加上这个能力再模拟一下。"

Qwen3-Max-Preview 依然能够很好的实现,输出了 " 力量与速度种群模拟(协作版)",模拟出小绿球有了协作能力后能抵御红球的能力,但双方态势依然很僵持。

随着模拟的进行,两边种群越来越少,于是我们进一步要求 Qwen3-Max-Preview 给它们繁衍的能力,输入提示词:

" 当它们双方干掉对方个体后,可以积累养分,繁衍自己,继续模拟。"

这次,Qwen3-Max-Preview 输出了 " 力量与速度种群模拟(资源与繁衍版)",从模拟可以看到,两类球都自行开始裂变,在这种情况下,红球已经干不过绿球了。

接着,我又输入:

" 发现力量型种群太弱了,它们根本抓不到对面,请给它们也提供团队协作的能力,可以围捕速度型选手。"

Qwen3-Max-Preview 输出了 " 力量与速度种群模拟(双向协作版)",小绿球和小红球分别形成抱团趋势,从而形成了两边 " 群殴围攻 " 的态势。

通过这个有趣的小实验我们发现,Qwen3-Max-Preview 在提示词表意很模糊的情况下,也能够顺利理解到用户意图。

尤其是 " 躲避危险 "、" 团结 "、" 协作 "、" 繁衍 " 等表述是比较抽象的,且对应的实际含义很复杂,实现起来涉及调节的参数很多,但 Qwen3-Max-Preview 都在几秒钟之内准确理解语义及背后的逻辑,并完成模拟实验的编程,体现其在复杂推理、指令执行、数学、编程等能力方面的出色能力。

由百炼平台可知,在定价方面,Qwen3-Max-Preview 支持 256k 上下文,根据输入 token 数采取阶梯计费:

输入 0-32k token 价格:0.006 元 / 千 token 输入,0.024 元 / 千 token 输出。

输入 32k-128k token 价格:0.01 元 / 千 token 输入,0.04 元 / 千输出。

输入 128k-252k token 价格:0.015 元 / 千 token 输入,0.06 元 /token 输出。

对比 Qwen-Max-0919 的 0.02 元 / 千 token 输入、0.06 元 / 千 token 输出的价格,Qwen3-Max-Preview 的定价更有层次,性能更高但价格更加实惠。

体验地址:

https://chat.qwen.ai

阿里云百炼 API 服务:

https://bailian.console.aliyun.com/?tab=model#/model-market

结语:超大 Qwen3 模型,证明规模化扩展效果

模型层的突破正成为阿里 AI 转型的第一张王牌。在内部测试和早期用户测评中,Qwen3-Max-Preview 表现出更广的知识面,更优秀的对话能力,在 Agent 任务与指令遵循等方面拥有更强劲的性能。

通义千问大模型开源闭源两手抓,已代表了中国大模型的技术新高度。Qwen3-Max-Preview 刷新了阿里大模型参数新纪录,其试图用更加强悍的性能,证明规模化扩展的效果——更大的模型拥有更强的性能。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 数学 编程 通义千问
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论