雷锋网 04-11
阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,斯坦福大学人工智能研究所发布了最新一期《2025 年人工智能指数报告》。研究报告显示,在 2024 年度全球重要大模型中,中国贡献 15 项。从具体机构分布来看,谷歌与 OpenAI 各占 7 席并列榜首,阿里巴巴以 6 个入选模型紧随其后,排名第三。

这份连续发布八年的年度报告由斯坦福人工智能实验室主任李飞飞教授领衔编制,自 2017 年首度发布以来,其多维度的评估框架和跨年度的数据追踪,已成为全球学术界和产业界观察 AI 技术演进的重要参照。

2025 年的斯坦福报告指出,中国和美国是全球 AI 最具影响力的两大国家,且中美模型的性能差距显著缩小,性能表现由 2023 年的 17.5% 骤降至 0.3%,差距接近抹平。

而阿里作为入选重要大模型最多的中国科技公司,其入选的 6 款模型分别为:Qwen-72B、Qwen1.5-72B、Qwen2-72B、Qwen2.5-72B、Qwen2.5-32B、QwQ-32B,是中国 AI 力量在全球影响力崛起的最大推手。

至今,阿里通义实验室已开源 200 多款模型。目前千问在全世界的衍生模型数破 10 万,超越美国 Llama 成为世界第一开源大模型。

中美差距缩小,阿里通义千问功不可没

美国历来是人工智能研究和模型开发的主导。然而,最近的证据表明,中国模型的性能正在逐步逼近美国。

2024 年 1 月,在 LMSYS 聊天机器人竞技场上,美国顶级模型的表现优于中国最佳模型 9.26%。到了 2025 年 2 月,这一差距缩小至仅 1.70%。

2023 年底,美国领先模型的表现显著优于中国同类模型。在 MMLU、MMMU、MATH 和 HumanEval 等基准测试中,中美性能差距分别为 17.5、13.5、24.3 和 31.6 个百分点。2024 年底,这些差异显著缩小至仅 0.3、8.1、1.6 和 3.7 个百分点。

这一重要转变的背后是阿里和 DeepSeek 的持续努力和爆发。2024 年 5 月 24 日,阿里巴巴发布开源 Qwen2.5,性能超越 Llama 405B。2025 年 1 月 20 日,DeepSeek 发布 DeepSeek-R1,同步开源模型权重。前有阿里开荒拓土,后有 DeepSeek 持续发力。如今,阿里和 DeepSeek 已经成为了中国 AI 在世界舞台中激烈角逐的两股领先力量。

根据斯坦福的报告,阿里是唯一进入全球大模型贡献前三的中国公司。统计数据显示,在备受关注的全球重大模型榜单中,谷歌与 OpenAI 分别上榜 7 个,并列第一。阿里则以 6 个上榜模型位居全球第三、中国第一。在业内顶级专家评选出的 32 项 "2024 年 AI 领域重要发布 " 中,阿里 Qwen2、Qwen2.5 及 DeepSeek-V3 三大发布上榜。

报告显示,Qwen2.5-72B 的训练数据量要略高于 Llama-405B 和 DeepSeek-V3,成为截至 2024 年训练数据量最大的模型。Qwen2.5 全系列模型训练数据量为 18 万亿 tokens,而 Llama-405B 仅仅只有 15 万亿 tokens 的数据量。这意味着 Qwen2.5 拥有更多的知识、更强的编程和数学能力。

报告中对比了中美两国知名机器学习模型的训练算力,揭示出一个关键趋势:美国顶级 AI 模型的算力需求普遍远超中国同类产品。这说明,在实现顶尖性能的同时,中国模型所需计算资源显著低于多数主流大语言模型。下图显示,Qwen2.5 和 DeepSeek-V3 的训练算力低于 10B,而以 Claude 3.5 Sonnet 和 Grok-2 为代表的顶尖模型,算力需求远超于此。

除此之外,闭源与开源 LLM 之间显著的性能差距也进一步缩小。2024 年 1 月初,领先的闭源模型性能超出顶级开源模型 8.0%。而截至 2025 年 2 月,这一差距已缩小至 1.7%。2024 年,Qwen 系列模型已超越 Llama,成为当前全球最大的开源模型。阿里和 DeepSeek 作为行业领头羊,有望继续强势扭转开源落后的局面。

在对 AI 的投入决心方面,阿里在中国是最激进的。就在今年年初,阿里 CEO 吴泳铭宣布未来三年,阿里预计在 AI 和云计算领域投入 3800 亿元人民币,加速云和 AI 硬件基础设施建设、提升 AI 基础模型的研发、推动 AI 应用的转型升级。

阿里 AI,当之无愧

事实上,2025 年斯坦福 AI 指数报告中阿里大模型的亮眼成绩并非横空出世,而是积步千里。

早在 ChatGPT 之前,阿里就开启了大模型的研究探索。

2023 年 4 月," 通义千问 " 大模型正式发布,之后以平均每两个月的速度迭代一次。同年 8 月 Qwen-7B 宣布开源,阿里首次加入自研大模型开源行列。

2024,是通义千问爆发的一年。阿里分别在 5 月、6 月、9 月、12 月推出开源模型 Qwen2.5、Qwen2-72B、Qwen2.5-72B、QVQ-72B-Preview。

今年 2 月,视觉生成基座模型通义万相(Wan)开源,在 VBench 中以总分 86.22% 的成绩稳居榜首。3 月,首个端到端全模态大模型 Qwen2.5-Omni-7B 发布,并于 4 月登顶 Hugging Face 开源大模型榜单。

具备强大的、不断迭代的基础模型后,阿里不是 " 闭关锁国 ",而是从 2022 年开始就采取开源措施,将自家的基础模型开放给 AI 社区,继而构建了强大的开源生态。

最新数据显示,通义已接入 29 万家企业,包括 90% 互联网公司,90% 上市商业银行,90% 汽车品牌等。

Qwen 开源模型在国内备受青睐,Manus 通过 Qwen 在国产模型和算力平台上实现全部功能,迅速走红于各大社交平台。DeepSeek 使用 R1 蒸馏出 6 个开源模型,其中有 4 个来自 Qwen。

目前,海内外开源社区中千问 Qwen 的衍生模型数量已突破 10 万,稳居世界最大 AI 大模型族群。根据 Huggingface2025 年 2 月 10 日最新的全球开源大模型榜单,排名前十的开源大模型全部是基于通义千问 Qwen 开源模型二次开发的衍生模型。

甚至李飞飞等斯坦福大学研究人员也基于阿里通义千问 Qwen2.5-32B-Instruct 开源模型为底座,仅用不到 50 美元,便打造出了性能卓越比肩 OpenAI 的 O1 和 DeepSeek 的 R1 等尖端推理模型的 s1-32B 模型。

从 2023 年至今,阿里通义团队已开源 200 多款模型,囊括文本生成、语音理解、文生图及视频模型等全模态模型,覆盖全尺寸参数,支持 29 种语言。

通义千问促进中国大模型生态繁荣的背后,是阿里云打下的算力基础。2023 年 7 月 7 日,阿里云宣布,将把促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。

2022 年,阿里云在业界首提 MaaS(Model as a Service,模型即服务)理念,提出了一种全新的、以 AI 模型为核心的开发范式。阿里云据此搭建了一套以 AI 模型为核心的云计算技术和服务架构,并将这套能力将全部向大模型初创企业和开发者开放,提供包括模型训练、推理、部署、精调、测评、产品化落地等在内的全方位服务。

截至目前,中国众多头部主流大模型都已通过阿里云对外提供 API 服务,包括通义系列、Baichuan 系列、智谱 AI ChatGLM 系列等。百川智能创始人兼 CEO 王小川也曾表示," 百川成立仅半年便发布了 7 款大模型,快速迭代背后离不开云计算的支持。"

一些科研机构和创业公司还基于 千问开发了自己的模型和产品。中国科学院国家天文台人工智能工作组基于 Qwen 开源模型发布了新一代天文大模型 " 星语 3.0"。中国科学院地球化学研究所与阿里云基于 Qwen 开发了国际首个 " 月球科学多模态专业大模型 "。千问 QwQ-32B 也成为 AI for Science 科研领域最受欢迎的大模型之一,已服务 300 多家科研院所和高校。

2025 年,大模型技术圈依然热闹非凡。继 DeepSeek 席卷全球后,AI Agent 又开启新的大模型产品形态竞争。AI 智能体的进一步发展正在肉眼可见地加深模型应用与基础模型的关联,同时加大推理侧的需求增长。而阿里同时坐拥基础模型与云平台基础设施的两大 " 护法 ",在新一轮的 AGI 竞争中仍有极大优势,拭目以待。

雷峰网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 斯坦福 ai 美国 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论