美媒:中国新大模型测试全面击败OpenAI谷歌模型

你敢信？一个被美国列入实体清单、连英伟达芯片都买不到的中国 AI 实验室，居然在衡量真实职场能力的权威测试里，把 GPT-5.5 和谷歌所有模型都甩在了身后！

这可不是什么偏门榜单的意外。北京智谱 AI 旗下的 GLM-5.2，在人工智能分析公司发布的 GDPval-AA v2 基准测试里，拿到了 1524 分的 Elo 评分，全球排第三——仅次于 Anthropic 的 Claude Fable 5（1783 分）和 Claude Opus 4.8（1615 分）。而 OpenAI 的 GPT-5.5 最高推理设置下才 1509 分，谷歌最好的 Gemini 3.5 Flash 更是只有 1357 分，全都被 GLM-5.2 压在了下面。

最让人震惊的不是排名，是这个测试到底测的是什么。传统 AI 测试都是考孤立的推理题或者编程题，像考试一样。但 GDPval-AA 完全不一样，它模拟的是真的能创造经济价值的知识工作：多轮对话、长时间跟进、真实的专业任务场景。GLM-5.2 在测试里平均每项任务要完成 31 轮对话，这不是 " 回答一个问题 "，而是 " 从头到尾推进一件事 " ——就像你在职场里跟同事协作完成项目一样。

人工智能分析团队用同一份真实任务清单，同时测了 GLM-5.2 和三个前沿模型：零售主管的日常业务清单、IEC 紧急停止电路原理图分析、管弦乐情绪板设计。结果呢？GLM-5.2 的表现和 Claude Fable 5、GPT-5.5、Gemini 3.5 Flash 完全在同一梯队，没有落下风。

这里有个细节，必须单独拿出来说：智谱 AI 从 2025 年 1 月起就被美国列入实体清单，根本买不到英伟达 GPU。那 GLM-5.2 是怎么跑起来的？答案是华为昇腾芯片。这件事本身，就是对 " 芯片出口管制能遏制中国 AI 发展 " 最直接的打脸。

不仅如此，GLM-5.2 还是开放权重模型，定价更是狠到离谱：每百万输入代币 1.40 美元，输出 4.40 美元。对比一下 Claude Opus 4.8，输入 15 美元、输出 75 美元——贵了将近 10 倍！一个硬件受限、价格又这么低的开放模型，居然能在真实工作测试里跟顶级专有模型平起平坐，这背后的经济逻辑和地缘政治意义，早就超过了一张榜单本身。

而且智谱 AI 的迭代速度也吓人：GLM-5 在 2 月发布，3 月下旬就出了 GLM-5.1，6 月又推出 GLM-5.2，平均每六周就有一个重要版本。GLM-5.1 已经在 SWE-Bench Pro 软件工程测试里超越了 GPT-5.4 和 Claude Opus 4.6，成为第一个在这个测试里登顶的中国模型。GLM-5.2 则在更贴近真实应用的赛道上，继续把这个势头延伸下去。

可能有人会说，不就是个测试吗？但 GDPval-AA 的测试逻辑，跟你平时看到的 AI 考试完全不同。它不是让模型做几道选择题或者写段代码，而是让模型模拟真实的职场任务：比如零售主管要处理的日常业务，从库存管理到客户投诉；比如工程师要分析的电路原理图，得找出潜在问题；甚至是设计师要做的情绪板，得准确传达出管弦乐的氛围。这些任务都需要模型具备持续思考、多轮交互的能力，而不是一次性给出答案。

在另一个叫 AA-Briefcase 的专项测试里，GLM-5.2 同样表现出色。这个测试专门针对研究、分析和结构化交付成果类工作，把评分通过率、分析质量和表达能力合并成综合 Elo 分数。GLM-5.2 在这里拿到了 1266 分，超过 GPT-5.5 的 1159 分，再次成为开源模型里的第一名。

横向看，GLM-5.2 的表现也不是偶然。在人工智能分析智能指数（AIAI）里它排第四，得分 51 分，只落后于三个专有闭源模型。在代理指数（Agentic Index）的开放权重分类里，它更是排名第一。智谱 AI 自己总结：所有测试结果高度一致，没有明显的短板。

开放权重模型本来就比闭源模型更有优势——开发者可以基于它二次开发，定制化程度更高。但 GLM-5.2 不仅开放，价格还低到让闭源模型汗颜。Claude Opus 4.8 的价格是它的 10 倍，而性能却没拉开差距。这意味着什么？意味着中小企业甚至个人开发者，都能用得起接近顶级水平的 AI 模型，而不用被大厂的高价卡脖子。

这对整个 AI 行业的影响是巨大的。过去，顶级 AI 能力被几个大厂垄断，小公司根本用不起。但 GLM-5.2 的出现，可能会打破这种垄断格局。开放、低价、高性能——这三个关键词加起来，足以让更多人参与到 AI 创新里来，而不是只能看着大厂玩。

过去十二个月，行业里普遍认为 " 中国 AI 落后美国半年到一年 "。但 GLM-5.2 的表现，正在一点点瓦解这个共识。从 GLM-5.1 在软件工程测试里登顶，到 GLM-5.2 在真实职场测试里超过 GPT-5.5，中国 AI 的进步速度，显然超出了很多人的预期。

GLM-5.2 不是终点，它更像是一个信号：这场 AI 竞争的格局，比大多数人想象的要复杂得多。美国的芯片管制，没有拦住中国 AI 的脚步；相反，可能还激发了更多的创新和突破。

你觉得，美国的芯片出口管制，真的能遏制中国 AI 的发展吗？GLM-5.2 的表现，会不会改变你对中国 AI 实力的看法？这场 AI 竞赛，接下来会朝着什么方向发展？欢迎在评论区说出你的观点！

宙世代

一起剪

相关标签