国内的 AI 大模型竞赛,再次被按下了加速键!
AI 圈的小伙伴们可能还记得,几天前 Kimi-K2 的开源还在被津津乐道。然而,开源的王座,热度还没持续几天,就迎来了新的挑战者。
7 月 22 日凌晨,阿里巴巴通义千问团队突然发布了旗舰模型 Qwen3 的重磅更新,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。
新版本模型在多项核心能力上实现了惊人飞跃,不仅全面超越了 Kimi-K2 等顶级开源模型,甚至领先 Claude-Opus4-Non-thinking 等顶级闭源模型。
性能 " 爆表 ",这次升级有多猛?
根据官方发布的数据,新模型的通用能力获得了全方位强化,在多个权威测评中表现极其亮眼:
包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等众多测评中表现出色,超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。
值得一提的是,本次更新的 Qwen3 模型在 Agent 能力尤其亮眼:在 BFCL(Agent 能力)测评中表现卓越。这意味着模型在理解复杂指令、自主规划、调用工具以完成任务的能力上,达到了一个新的高度。" 主打 Agent",将是未来 AI 应用的核心竞争力。
除了硬核的跑分,这次更新还带来了三大 " 体感 " 升级:
- 在多语言的长尾知识覆盖方面,模型取得显著进步。
- 在主观及开放性任务中,模型显著增强了对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本。
- 长文本提升到 256K,上下文理解能力进一步增强。
告别 " 混合思维 ",分离训练有多强?
这次最核心的变化,是技术路线的革新。
通义千问团队宣布,正式告别此前的 " 混合思维模式 ",迈向全新的 " 分离训练 " 时代。他们将用于直接回答的 Instruct 模型和用于复杂思考的 Thinking 模型进行独立训练。
简单来说,就是让 " 快思考 " 和 " 慢思考 " 各司其职,从而在各自的领域都做到极致。
本次发布的 Qwen3-235B-A22B-Instruct-2507-FP8 ,就是 " 快思考 " 路线下的最新成果。它主打非思考模式(Non-thinking),追求的是在指令遵循、文本理解和知识问答等任务上,做到更快、更准、更强 ~
开源圈 " 卷 " 出新高度,大招还在后头!
从 Kimi-K2,到今天的 Qwen3 新版,国内的开源 AI 竞赛已经进入白热化阶段。每一次更新都伴随着性能的飞跃和王座的更迭。
更让人激动的是,通义千问团队在发布更新的同时,还留下了一个悬念:
" 还有大招,马上就要来了!"
这不禁让人猜想,分离训练的另一端——专注于复杂推理的 "Thinking" 模型是否也已在路上?
目前,最新的 Qwen3 模型已在魔搭社区(ModelScope)和 HuggingFace 全面开源更新。如果你是 AI 开发者或爱好者,现在就可以去亲身体验这个 " 开源新王 " 的威力了
登录后才可以发布评论哦
打开小程序可以发布评论哦