孤傲何妨初 19小时前
美媒:中国新大模型测试全面击败OpenAI谷歌模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

你敢信?一个被美国列入实体清单、连英伟达芯片都买不到的中国 AI 实验室,居然在衡量真实职场能力的权威测试里,把 GPT-5.5 和谷歌所有模型都甩在了身后!

这可不是什么偏门榜单的意外。北京智谱 AI 旗下的 GLM-5.2,在人工智能分析公司发布的 GDPval-AA v2 基准测试里,拿到了 1524 分的 Elo 评分,全球排第三——仅次于 Anthropic 的 Claude Fable 5(1783 分)和 Claude Opus 4.8(1615 分)。而 OpenAI 的 GPT-5.5 最高推理设置下才 1509 分,谷歌最好的 Gemini 3.5 Flash 更是只有 1357 分,全都被 GLM-5.2 压在了下面。

最让人震惊的不是排名,是这个测试到底测的是什么。传统 AI 测试都是考孤立的推理题或者编程题,像考试一样。但 GDPval-AA 完全不一样,它模拟的是真的能创造经济价值的知识工作:多轮对话、长时间跟进、真实的专业任务场景。GLM-5.2 在测试里平均每项任务要完成 31 轮对话,这不是 " 回答一个问题 ",而是 " 从头到尾推进一件事 " ——就像你在职场里跟同事协作完成项目一样。

人工智能分析团队用同一份真实任务清单,同时测了 GLM-5.2 和三个前沿模型:零售主管的日常业务清单、IEC 紧急停止电路原理图分析、管弦乐情绪板设计。结果呢?GLM-5.2 的表现和 Claude Fable 5、GPT-5.5、Gemini 3.5 Flash 完全在同一梯队,没有落下风。

这里有个细节,必须单独拿出来说:智谱 AI 从 2025 年 1 月起就被美国列入实体清单,根本买不到英伟达 GPU。那 GLM-5.2 是怎么跑起来的?答案是华为昇腾芯片。这件事本身,就是对 " 芯片出口管制能遏制中国 AI 发展 " 最直接的打脸。

不仅如此,GLM-5.2 还是开放权重模型,定价更是狠到离谱:每百万输入代币 1.40 美元,输出 4.40 美元。对比一下 Claude Opus 4.8,输入 15 美元、输出 75 美元——贵了将近 10 倍!一个硬件受限、价格又这么低的开放模型,居然能在真实工作测试里跟顶级专有模型平起平坐,这背后的经济逻辑和地缘政治意义,早就超过了一张榜单本身。

而且智谱 AI 的迭代速度也吓人:GLM-5 在 2 月发布,3 月下旬就出了 GLM-5.1,6 月又推出 GLM-5.2,平均每六周就有一个重要版本。GLM-5.1 已经在 SWE-Bench Pro 软件工程测试里超越了 GPT-5.4 和 Claude Opus 4.6,成为第一个在这个测试里登顶的中国模型。GLM-5.2 则在更贴近真实应用的赛道上,继续把这个势头延伸下去。

可能有人会说,不就是个测试吗?但 GDPval-AA 的测试逻辑,跟你平时看到的 AI 考试完全不同。它不是让模型做几道选择题或者写段代码,而是让模型模拟真实的职场任务:比如零售主管要处理的日常业务,从库存管理到客户投诉;比如工程师要分析的电路原理图,得找出潜在问题;甚至是设计师要做的情绪板,得准确传达出管弦乐的氛围。这些任务都需要模型具备持续思考、多轮交互的能力,而不是一次性给出答案。

在另一个叫 AA-Briefcase 的专项测试里,GLM-5.2 同样表现出色。这个测试专门针对研究、分析和结构化交付成果类工作,把评分通过率、分析质量和表达能力合并成综合 Elo 分数。GLM-5.2 在这里拿到了 1266 分,超过 GPT-5.5 的 1159 分,再次成为开源模型里的第一名。

横向看,GLM-5.2 的表现也不是偶然。在人工智能分析智能指数(AIAI)里它排第四,得分 51 分,只落后于三个专有闭源模型。在代理指数(Agentic Index)的开放权重分类里,它更是排名第一。智谱 AI 自己总结:所有测试结果高度一致,没有明显的短板。

开放权重模型本来就比闭源模型更有优势——开发者可以基于它二次开发,定制化程度更高。但 GLM-5.2 不仅开放,价格还低到让闭源模型汗颜。Claude Opus 4.8 的价格是它的 10 倍,而性能却没拉开差距。这意味着什么?意味着中小企业甚至个人开发者,都能用得起接近顶级水平的 AI 模型,而不用被大厂的高价卡脖子。

这对整个 AI 行业的影响是巨大的。过去,顶级 AI 能力被几个大厂垄断,小公司根本用不起。但 GLM-5.2 的出现,可能会打破这种垄断格局。开放、低价、高性能——这三个关键词加起来,足以让更多人参与到 AI 创新里来,而不是只能看着大厂玩。

过去十二个月,行业里普遍认为 " 中国 AI 落后美国半年到一年 "。但 GLM-5.2 的表现,正在一点点瓦解这个共识。从 GLM-5.1 在软件工程测试里登顶,到 GLM-5.2 在真实职场测试里超过 GPT-5.5,中国 AI 的进步速度,显然超出了很多人的预期。

GLM-5.2 不是终点,它更像是一个信号:这场 AI 竞争的格局,比大多数人想象的要复杂得多。美国的芯片管制,没有拦住中国 AI 的脚步;相反,可能还激发了更多的创新和突破。

你觉得,美国的芯片出口管制,真的能遏制中国 AI 的发展吗?GLM-5.2 的表现,会不会改变你对中国 AI 实力的看法?这场 AI 竞赛,接下来会朝着什么方向发展?欢迎在评论区说出你的观点!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 芯片 美国 职场
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论