编译 | 陈骏达 程茜
编辑 | Panken
智东西 4 月 8 日报道,今天,斯坦福大学以人为本 AI 研究院(HAI)发布长达 456 页的《AI 指数报告 2025》,全面介绍了中美 AI 竞争态势、开源模型、模型技术性能、大模型投融资、AI for Science 等领域的最新数据和进展,其中DeepSeek 被提及 45 次。
《AI 指数报告 2025》中写道:" 美国在顶尖 AI 模型产出上仍保持领先——但中国正快速缩小性能差距。"
报告以DeepSeek-V3为典型代表,论证了大模型推理、训练成本的骤降;来自清华大学、北京智源研究院的数十篇科研成果被纳入全球 Top100;来自阿里、字节、DeepSeek、腾讯、智谱等企业的 15 款模型被选为过去一年中的重要 AI 模型。
整体而言,中国大陆的 AI 研究论文在全球总发表量中占比23.2%,被引量占全球总量的22.6%。不过,美国在研究成果在影响力上更胜一筹,且依旧是重要 AI 模型的主要来源地。2024 年,美国机构开发了40 个重要 AI 模型,远超中国大陆的 15 个和欧洲的 3 个。过去十年美国开发的机器学习模型数量居全球之首。
算力作为驱动 AI 发展的重要因素,也在迅速变化。以 16 位浮点运算为基准,2008-2024 年间机器学习硬件性能年均增长约43%(每 1.9 年翻番),固定性能水平的硬件成本正以每年30%的幅度下降。
AI 正对经济产生深刻影响。在麦肯锡的调研中,已有至多 49% 的企业称 AI 为企业实现了降本,其中,中国大陆企业在 AI 采用率上提升迅速,已达75%,与北美地区差距缩小到 7%。
2024 年,全球 AI 投资达到2523 亿美元,其中私人投资增长 44.5%,生成式 AI 领域的投资达到 339 亿美元,2024 年美国 AI 投资额达到 1091 亿美元,几乎是中国大陆投资额 93 亿美元(折合人民币约 682 亿元)的 12 倍。
我们还首次见证了 AI 研究获得 2 项诺贝尔奖,并在生物医药领域展现出巨大的应用潜力。
一、产业界主导大模型开发,中国 AI 专利量全球领先
全球 AI 领域呈现出多维度的快速发展态势。AI 已成为计算机科学中的主要研究领域,产业界在 AI 大模型开发中扮演着关键角色,学界则在高被引论文上表现突出。过去 1 年,重要 AI 模型的数量虽有所减少,但产业界开发的模型占比显著上升。
硬件成本的持续下降为 AI 的发展提供了有力的支持。同时,AI 学术会议参会人数的增长也反映出学界、业界对 AI 研究的热情高涨,整个行业正处于蓬勃发展的关键时期。
1、中美 AI 科研影响力持续提升
总体来看,AI 研究论文的总量持续增长,并已主导计算机科学领域。2013-2023 年间,AI 研究论文的数量从 10.2 万篇增至 24.2 万篇,在计算机科学论文中的占比从 21.6% 升至 41.8%。学术界贡献了更多的高被引研究。
从地区来看,中国大陆 AI 论文发表总量领先,2023 年,中国大陆机构的 AI 论文在全球总发表量中占比 23.2%,被引量占 22.6%。
美国则发表了更多高影响力研究。2021 年 -2023 年,美国分别贡献了 AI 领域 Top100 高被引论文中的 64 篇、59 篇与 50 篇,中国大陆分别贡献了 33 篇、34 篇与 34 篇。
按机构来看,在 2021 年 -2023 年的 Top100 高被引论文中,谷歌、清华大学、卡耐基梅隆大学、微软、北京智源人工智能研究院、香港科技大学、上海人工智能实验室、中国科学院、Meta、英伟达的表现较为抢眼。
2、重要 AI 模型(Notable AI models)由产业界主导
AI 指数数据提供商 Epoch AI 根据是否为最新技术进步、是否具有历史意义或引用率等标准,定义了一个囊括 900 余个重要 AI 模型的数据库。
过去数年来,重要 AI 模型的参数规模、数据集大小、训练时长等数据都呈现增长态势。产业界正持续加大 AI 投入,并主导了重要模型的开发工作,2024 年,由产业界开发的重要模型占比达 90%(2023 年为 60%)。
重要 AI 大模型的数量出现了明显减少,由 2023 年的 105 个减少至 2024 年的 61 个。同时,有越来越多的大模型选择了 API、托管获取权限等非开源方式进行发布。
美国仍是重要 AI 模型的主要来源地。2024 年,美国机构开发了 40 个重要 AI 模型,远超中国大陆的 15 个和欧洲的 3 个。过去十年美国开发的机器学习模型数量居全球之首。
2024 年,几乎所有重要 AI 模型都来自产业界,其中谷歌和 OpenAI 凭借 7 款重要模型位列榜首,阿里凭借 6 款模型位居第三。字节、DeepSeek、腾讯、智谱 AI 分别凭借 2 款模型上榜。
回顾 2014 年 -2024 年的数据,谷歌贡献了最多的重要 AI 模型,其次是 Meta、微软、OpenAI 等企业。多所美国计算机强校登上这一榜单,清华大学和阿里分别贡献了 22 个与 14 个重要 AI 模型。
美国顶级 AI 模型的算力需求普遍远超中国大陆模型。根据 Epoch AI 数据,自 2021 年底以来,中国大陆训练算力排名前十的语言模型年均增长约 3 倍,显著低于 2018 年以来全球其他地区年均 5 倍的增速。
3、开源 AI 项目数量陡增
自 2011 年以来,代码托管平台 GitHub 上的开源 AI 项目数量持续增长,从 2011 年的 1549 个激增至 2024 年的约 430 万个。特别值得注意的是,仅过去一年内,GitHub AI 项目总量就实现了 40.3% 的陡增。
截至 2024 年,美国贡献 GitHub 中 23.4% 的 AI 项目,占据最大份额;印度以 19.9% 的占比位居第二;欧洲紧随其后,贡献了 19.5% 的项目。美国开发者和中国大陆开发者在 GitHub 开源 AI 项目中的占比都出现不同比例的下降。
4、硬件成本每年下降 30%
报告强调,硬件进步是推动人工智能发展的核心驱动力。尽管模型规模扩大和海量数据训练带来了显著性能提升,但这些突破本质上都依赖于硬件技术的革新——尤其是更强大、更高效的图形处理器(GPU)的发展。
根据 Epoch AI 测算,以 16 位浮点运算为基准,2008-2024 年间机器学习硬件性能年均增长约 43%(每 1.9 年翻番)。这一进步主要源于晶体管数量持续增加、半导体制造工艺革新和专用 AI 计算硬件的演进。
固定性能水平的硬件成本正以每年 30% 的幅度下降。以 2022 年 3 月发布的 H100 为例,其每美元可实现 220 亿次浮点运算,性价比较 2020 年 6 月发布的 A100 提升 1.7 倍,较 2016 年 4 月的 P100 更是提升 16.9 倍。
5、中国大陆 AI 专利授权量领先
过去 10 余年,AI 专利申请量激增。2010-2023 年 AI 专利从 3833 件增至 122511 件,年增幅 29.6%。中国大陆以 69.7% 的授权量领先,韩国和卢森堡人均专利产出最高。
6、AI 学术会议参会人数增长
自 2014 年以来,全球主要 AI 学术会议的参会人数增加了 6 万多人,AI 研究热情不断增长。数据显示,NeurIPS 仍然是参会人数最多的 AI 学术会议,2024 年吸引了近 2 万名参与者。在主要的 AI 学术会议中,NeurIPS、CVPR、ICML、ICRA、ICLR、IROS 和 AAAI 在过去一年中参会人数都有所增加。
二、开源模型迎头赶上,中美大模型质量差距缩小到 0.3%
2024 年,AI 模型的性能实现诸多突破。AI 在多项基准测试中表现优异,超越人类或与人类差距迅速缩小,并攻克了 2023 年新提出的多项基准测试。
开源模型在 2024 年迎头赶上,顶尖开源模型与顶尖闭源模型的差距大幅缩小,前沿 AI 模型的性能分布趋于收敛,小模型的能力也在不断增强。此外,AI Agent 等新技术展现出初步潜力。
1、2024 年 AI 领域重要发布
以下是报告中列举的 2024 年最具代表性的模型、数据集和功能发布,由业内专家组成的 AI 指数指导委员会选出。来自阿里的 Qwen2、Qwen2.5 和来自 DeepSeek 的 DeepSeek-V3 上榜,Cohere、北京智源人工智能研究院等发布的提示词数据集也被认为具有重要意义。
2、AI 在多项基准测试中领先人类
截至 2024 年,人类能力超过 AI 的任务类型已经非常少,即使在这些任务上,AI 与人类之间的表现差距也在迅速缩小。
例如,在 MATH(竞赛级别数学的基准测试)上,最先进的 AI 系统现在已经领先人类表现 7.9%,而 2024 年时这一差距仅为 0.3%。同样,在 MMMU(复杂、多学科、专家级问题的基准测试)上,2024 年表现最佳的模型 o1 得分为 78.2%,仅比人类基准的 82.6% 低 4.4%。
2023 年,AI 研究人员引入了几项具有挑战性的新基准测试,包括 MMMU、GPQA 和 SWE-bench,旨在测试日益 AI 模型的极限。
到 2024 年,AI 模型在这些基准测试中的表现取得了显著进步,分别在 MMMU 和 GPQA 上实现了 18.8% 和 48.9% 的提升。在 SWE-bench 上,AI 模型在 2023 年只能解决 4.4% 的编程问题,而这一比例在 2024 年跃升至 71.7%。
4、开放权重模型迎头赶上
去年的 AI 指数报告揭示,领先的开放权重模型远远落后于其封闭权重的同类产品。到 2024 年,这一差距几乎消失。
2024 年 1 月初,领先的封闭权重模型在聊天机器人竞技场排行榜上比顶级开放权重模型高出 8.0%。到 2025 年 2 月,这一差距缩小至 1.7%。
5、中美模型差距缩小
2023 年,领先的美国模型显著优于其中国大陆同类产品——这种优势已不复存在。2023 年底,在 MMLU、MMMU、MATH 和 HumanEval 等基准测试中,性能差距分别为 17.5%、13.5%、24.3% 和 31.6%。到 2024 年底,这些差距大幅缩小至 0.3%、8.1%、1.6% 和 3.7%。在大模型竞技场上,中美大模型的差距缩小至 30 分以内。
6、AI 模型性能在前沿领域趋于收敛
根据去年的 AI 指数报告,聊天机器人竞技场排行榜上前十名模型与排名第一的模型之间的 Elo 评分差距为 11.9%。到 2025 年初,这一差距缩小至 5.4%。同样,排名前两名的模型之间的差距从 2023 年的 4.9% 缩小到 2024 年的 0.7%。人工智能领域的竞争日益激烈,越来越多的开发者提供了高质量的模型。
7、小模型能力日益增长
2022 年,在 MMLU 上得分超过 60% 的最小 AI 模型是 PaLM,拥有 5400 亿个参数。到 2024 年,微软的 Phi-3-mini 仅拥有 38 亿个参数,就达到了相同的阈值,后者的参数量仅为前者的 0.7%。
8、AI Agent 展现出初步潜力
2024 年推出的 RE-Bench 可用于评估 AI Agent 在复杂任务上的能力,测试标准较为严格。
在短时间(2 小时)内,顶级 AI 系统的得分是人类专家的 4 倍,但随着时间的增加,人类的表现超过了 AI。
例如,在 32 小时的时间范畴上,人类的得分是 AI 的 2 倍。AI Agent 已经在某些特定任务(如编写 Triton 内核)上与人类专家相匹配,同时能够更快地交付结果且成本更低。
三、全球投资热蔓延,中国大陆工业机器人部署全球第一
2024 年,AI 领域的投资和应用迎来诸多变化,但存在明显区域差异。全球企业 AI 投资创下历史新高,美国投资规模一骑绝尘,北美地区 AI 采用率领先全球,但中国的采用铝也迅速提升。
AI 正给企业带来一定的经济效益,尽管大多数受访者的成本节省不到 10%,但这一趋势仍具有重要意义。
1、全球 AI 投资创历史新高
2024 年企业 AI 投资达到 2523 亿美元,其中私人投资增长 44.5%,这是自 2021 年以来首次同比增长。
2024 年生成式 AI 领域的投资达到 339 亿美元,比 2023 年增长 18.7%,是 2022 年水平的 8.5 倍以上。该领域如今占所有 AI 相关私人投资的 20% 以上。
2、美国在全球 AI 投资中的领先优势扩大
2024 年美国 AI 投资额达到 1091 亿美元,几乎是中国大陆投资额 93 亿美元(折合人民币约 682 亿元)的 12 倍。在生成式 AI 领域,美国的投资超过了中国大陆、欧盟和英国的 254 亿美元(折合人民币约 1864 亿元)总和。
3、AI 采用率水平前所未有
2024 年,该报告提到,其关于使用 AI 的调查受访者比例从 2023 年的 55% 跃升至 78%。同样,受访者在至少一项业务职能中使用生成式 AI 的数量翻了一倍多,从 2023 年的 33% 升至去年的 71%。
4、AI 开始降本增效
49% 的受访者称使用 AI 进行服务运营为其节省了成本,其次是 43% 受访者将 AI 用于供应链管理和 41% 受访者用于软件工程,此外大多数受访者的成本节省不到 10%。
5、中国 AI 采用率迎头赶上
按地区来看,AI 的采用率出现明显变化,中国迎头赶上。尽管北美的组织和企业在 AI 采用率方面仍保持领先地位,但中国具有最显著的年度增长率,组织使用 AI 的比例增加了 27%。欧洲紧随其后,增加了 23%。
6、中国大陆在工业机器人领域的主导地位延续
中国大陆安装工业机器人的数量超过世界其他国家的总和。2023 年中国大陆安装了 276300 台工业机器人,是日本的 6 倍、美国的 7.3 倍。自 2013 年超过日本以来,中国大陆在全球安装量中的占比已从 20.8% 上升到 51.1%。
四、更精准蛋白质测序模型亮相,AI 临床表现优于医生
2024 年,AI 在生物医学领域取得了重大突破,推动了科学研究和临床应用的快速发展。模型的规模、准确性不断提升,应用领域从实验室扩展到临床。AI 研究更是在 2024 年斩获两项诺贝尔奖,获得学界认可。
1、更大、更好的蛋白质测序模型出现
2024 年出现了包括 SM3、AlphaFold 3 等在内的几种大规模、高性能蛋白质测序模型。随着时间推移,这些模型规模显著增大,蛋白质预测准确率不断提升。
其中 ESM3 集成了多模态输入(序列、结构和交互数据),再加上其参数规模更大,提高了模型预测的代表性和准确性。随着 ESM 系列规模的扩大,蛋白质预测性能也得到了提高,2o04 年发布的较新的模型 ESM C 在结构预测关键评估(CASP15)挑战中对蛋白质结构的预测准确性更高。
2、AI 在科学进步中的作用不断扩大
2022 年、2023 年是 AI 驱动科技进步突破的早期阶段,但 2024 年 AI 应用在学术研究中获得了显著的关注,包括为生物任务训练 Agent 的 Aviary 和显著增强野火预测的 FireSat。
3、AI 临床应用增加
MedQA 基准测试中,OpenAI o1 得分达到 96.0% 的最高水平,比 2023 年的最高分数高出 5.8 个百分点,相比 2022 年底成绩提高了 28.4 个百分点。MedQA 是评估临床知识的关键基准。
4、AI 在关键临床任务上的表现优于医生
一项新研究发现,GPT-4 本身在诊断复杂临床病例方面的表现优于医生。其他近期研究表明,AI 在癌症检测和识别高死亡风险患者方面超越了医生。
5、合成数据在医学领域显示出巨大前景
2024 年发布的研究表明,AI 生成的合成数据可以帮助模型更好地识别健康的社会决定因素,增强隐私保护的临床风险预测,并促进新药物化合物的发现。
6、基础模型进入医学领域
2024 年,一波大规模医学基础模型发布,从 Med-Gemini 等通用多模态模型到用于超声心脏病学的 EchoCLIP 和用于放射学的 ChexAgent 等专用模型。
7、AI 研究获得两项诺贝尔奖
谷歌 DeepMind 的 Demis Hassabis 和 John Jumper 因其使用 AlphaFold 在蛋白质折叠方面的开创性工作而获得诺贝尔化学奖。约翰 · 霍普菲尔德和杰弗里 · 辛顿因其对神经网络的奠基性贡献而获得诺贝尔物理学奖。
五、30% 国家将计算机科学教育列为必修课
2024 年,全球约有 2/3 的国家提供或计划提供计算机科学教育,30% 的国家将计算机科学教育列为小学和 / 或中学的必修课程,其中欧洲是此类国家最多的地区。
2023 年美国获得 AI 硕士学位的学生数量急剧增加,毕业生数量翻番。
2023 年 AI 专业毕业生人数最多的美国高等院校中,卡内基梅隆大学数量最多。
结语:中国大陆民众整体对 AI 持乐观态度
AI 正以前所未有的速度渗透到千行百业之中,调查显示,全球约 2/3 的人认为,AI 驱动的产品和服务将在未来三到五年内显著改变日常生活。全球 60% 的受访者认为 AI 将在五年内改变工作方式,但仅 36% 担心其岗位会被取代。
绝大多数中国大陆民众(83%)认为,AI 技术利大于弊,而在加拿大(40%)、美国(39%)和荷兰(36%),持此观点者仍占少数,但比例有所上升。
登录后才可以发布评论哦
打开小程序可以发布评论哦