虎嗅APP 昨天
阿里秘密研发新模型将发布,影响力指标成最重要考核
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

出品|虎嗅商业消费组

作者|苗正卿

题图|视觉中国

虎嗅独家获悉,阿里即将在 2025 年 4 月第二周发布新模型 Qwen3,这将是阿里在 2025 年上半年最重要的模型产品,距离 2024 年 9 月阿里在云栖大会上发布 Qwen2.5 过去了大约七个月的时间。

据虎嗅独家了解,在 2024 年发布 Qwen2.5 后,阿里云内部的基础模型团队已经开始推动 Qwen3 相关项目。但 2025 年初 DeepSeek 的火爆,改变了团队的部分思路与重心。"2024 年四季度,圈内已经意识到模型的推理能力很重要,但还不能说是最重要的方向,DeepSeek 火爆后,推理能力已经成为绕不开的关键能力。" 知情人士告诉虎嗅,DeepSeek-R1 发布后,阿里云基础模型团队把策略中心进一步向模型的推理能力倾斜。

值得注意的是,在 2024 年下半年,阿里云基础模型团队对标的竞品模型主要是 OpenAI 的 o1,而在 DeepSeek-R1 发布后,DeepSeek-R1 已经成为了另一个主要对标模型。

虎嗅独家获悉,在阿里内部,基础模型团队最重要的考核维度是 " 模型影响力 "。在内部,高层希望团队可以在业内成功塑造 " 最强模型 " 的心智。阿里集团 CEO 吴泳铭同时兼任阿里云 CEO,据悉吴泳铭频繁参与到基础模型团队的业务沟通之中,并密切留意模型团队的各种进展。

两个具体的维度,被视为阿里基础模型团队的考核点:其一是衍生模型量,其二是在开发者社区的受欢迎度。

由于阿里采取模型开源策略,基于 Qwen 开源模型的衍生模型总量,被视为一个关键指标。截至目前,这一数据已经超过 10 万。而在开发者社区的欢迎度,阿里会考虑多个具体指标,比如开源模型下载量等。虎嗅获悉,2024 年 Qwen 系列模型在开发者社区的下载量超过了 2 亿。

" 在开发者社区之中,一个模型的影响力,主要有两个维度:一个是下载量,一个是衍生模型数。基于下载的开源模型,微调而成新的衍生模型后,需要重新上传至开发者社区。所以这两个维度可以比较好地反映一个开源模型的人气。" 一位知情人士告诉虎嗅,在阿里内部针对全球开发者的模型影响力相关心智指标,从 2024 年开始就被高度重视,这和吴泳铭等技术出身的高管熟稔技术圈文化有关。

虎嗅另外独家获悉,2025 年阿里模型团队也意识到了诸如智驾、AI Agent、AI 硬件等机会风口的存在。为了更好地契合这些场景,基础模型团队依然会采取 " 多尺寸 " 策略。2024 年发布的 Qwen2 系列,总共发布了 7 种不同的模型尺寸,而即将发布的 Qwen3 尺寸类型可能会更多。

值得注意的是,伴随 Qwen3 发布,阿里正在开启史上最大规模的校招,而虎嗅获悉,校招的 HC 之中涉及到基础模型团队的岗位量也达到史上最高。和以往不同的是,目前基础模型团队在招人过程中,更看重人才的 "AI 原生 ",也就是说更希望引入一开始接触的就是大语言模型的人才,而非传统的 NLP 人才(自然语言模型)。

评论
大家都在看