一份编程跑分成绩,把中美大模型竞赛的时间表推到了台前。
北京时间 6 月 17 日,智谱正式上线并开源了新一代旗舰模型 GLM-5.2。在 FrontierSWE 编程基准测试中,GLM-5.2 得分 74.4,超过 OpenAI GPT-5.5,距离 Anthropic 的顶级闭源模型 Claude Opus 4.8 仅差约 1 个百分点。

这个成绩迅速引发了讨论。有网友在 X 平台上直接提问:" 中国大模型预计何时能够达到 Anthropic Fable 水平?GLM-5.2 无疑缩短了差距。"
特斯拉 CEO 埃隆 · 马斯克给出了一个具体时间点:可能要到 2027 年第一季度。但智谱 AI 联合创始人兼首席科学家、清华大学教授唐杰随即回应:不需要那么久。
两人的判断分歧,背后是对 " 追上 " 这个词的不同丈量方式。马斯克随后补充解释,他认为在跑分上赶超 Fable 相对容易实现,但如果把 " 实用性 " 作为衡量标准,即便 2027 年第一季度达标,也已经是非常出色的速度——毕竟 Anthropic 一直把实用性作为核心追求。
Anthropic Fable 5 于 6 月 9 日发布,是目前 Anthropic 对外公开可用的最强 Claude 模型。它在软件工程、知识工作、视觉理解、科学研究等领域表现突出,能够处理涉及 5000 万行代码迁移这类高难度任务,还配备了动态安全防护机制。不过,这款模型上线仅数日后即遭遇管制。
对于马斯克的保守预测,部分 AI 业内人士并不认同。有观点认为,中美模型水平的实际时间差可能短于 7 个月。谷歌 DeepMind CEO 哈萨比斯此前也公开表示,中国 AI 模型在能力层面可能 " 只差几个月 " 就能赶上海外领先水平。
一方强调实战可用性,一方紧盯能力差距,时间表的争议背后,是两套评价体系在角力。


登录后才可以发布评论哦
打开小程序可以发布评论哦