智东西 02-12
智谱最强模型发布!编程对齐Claude Opus 4.5,七家国产芯片已火速适配
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 李水青

破案了,前两天在开发者社区爆火的 "Pony Alpha",就是智谱的 GLM-5!

智东西 2 月 12 日报道,今天,智谱发布了其最新一代基础模型 GLM-5,这是一个拥有 744B 参数(40B 激活)的模型,为 GLM-4.5 的两倍多。在 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一

GLM-5 的预训练数据从 23T 提升至 28.5T。智谱在技术报告中写道:"Scaling(规模化)仍然是提高 AGI 智能效率的最重要方式之一。"

智谱称,GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,在主流基准测试中取得开源模型 SOTA 分数。在 SWE-bench-Verified 和 Terminal Bench 2.0 中,GLM-5 分别获得 77.8 和 56.2 的开源模型 SOTA 分数,性能超过 Gemini 3 Pro。

架构方面,GLM-5 集成了 DeepSeek 的 DSA 稀疏注意力架构,能降低部署成本,同时保证了上下文容量。

在新模型发布后,智谱的股价今天已经上涨了 26%。本周,智谱股价累计上涨约 70%,市值目前已经达到 1756.62 亿港币(约合人民币 1551.62 亿元)。

GLM-5 上线后,我们第一时间给它出了几道带有逻辑陷阱的的网红测试题。第一道题目是这样的:我要去洗车,洗车的地方离家就 100 米,我是开车去呢,还是走着去呢?

不少主流大模型其实都会在这道题目上 " 翻车 ",不过 GLM-5 一眼就看穿了里头的陷阱。它分析道,肯定得开车去,因为洗的是车而不是人。最后,它还提出一个天才方案,可以先开车去,然后走回家休息,洗完了再去取车,这样就不用在旁边干等着吸尾气了。

紧接着我们尝试了另一个问题:父亲和母亲可以结婚吗?在这道题目上,由于我们的问题中给的限定不多,GLM-5 拆解出了更为具体的两种情况,分析内容合理,还知道这题目里也藏着逻辑误区——父母通常情况下就是夫妻关系,所以他们不仅是可以结婚,而是已经结婚的状态。

我们最后又试着问了它这个问题:" 今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?" 收到消息后,GLM-5 就好像马上切换到了心理咨询模式,贴心地安慰起用户,彻底绕进了题目里的陷阱——亲生父母结婚的时候,孩子大概率还没出生呢。

也有不少网友上手体验了 GLM-5。比如,这位网友就让自己的 OpenClaw Agent 用不同模型进行了一次 SwiftUI 编程测试,GLM-5 的表现要优于 Minimax M2.1。

还有一位网友让 GLM-5、GLM4.7 和 Opus 4.6 进行了 3D 网页的开发,这位网友认为 GLM-5 的升级很大,与 Opus 4.6 有一些品味方面的差异。

在博客中,智谱称,GLM-5 的上线得到众多国产芯片保障,GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

面向开发者群体,智谱的模型一般以 GLM Coding Plan 的方式对外提供服务。不过由于使用量快速提升,为保障服务质量,智谱决定调整套餐价格,整体涨幅自 30% 起。

GLM-5 已在 Hugging Face 和魔搭社区上开源,模型权重以 MIT 许可证发布。GLM-5 也支持开发者平台 api.z.ai 和 BigModel.cn,兼容 Claude Code 和 OpenClaw。普通用户也可以在 Z.ai 免费试用。

开源链接:

https://huggingface.co/zai-org/GLM-5

API 调用:

https://bigmodel.cn/

一、性能较 GLM-4.7 平均增幅超过 20%,Z Code 智能体开发环境发布

在博客中,智谱提到,大模型正从写代码、写前端,进化到写工程、完成大任务,即从 "Vibe Coding" 变革为 "Agentic Engineering"。

智谱内部的内部 Claude Code 评估结果显示,GLM-5 在前端、后端、长程任务等编程开发任务上超越 GLM-4.7(平均增幅超过 20%),能自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5。

此前,我们已在 OpenRouter 上测试了以 "Pony Alpha" 这一马甲现身的 GLM-5。这一模型在复杂编程领域的表现确实有明显可感的提升。

比如,我们曾试着让 GLM-5 复刻知名游戏《星露谷物语》。拿到提示词后,模型会像项目经理一样,分析了我们提示词中的核心需求,梳理出需要设计的八大系统与配色方案,以指导后期的开发。

之后,模型还会像架构师一样规划项目的整体架构,并打造出一个初步可玩的游戏界面。

当我们提出 " 进一步丰富游戏 " 这样的模糊需求时,GLM 可以自行规划,并打造出完成度更高的游戏。

也有开发者用 GLM-5 打造了横版解谜游戏、Agent 交互世界、论文版 " 抖音 " 等应用。这些应用有些已经开放下载,有些则提交应用商店审核。

面向编程场景,智谱还推出了 Z Code 智能体开发环境。用户只需把需求说清楚,模型会自动拆解任务,多智能体并发完成代码、跑命令、调试、预览和提交等开发全流程。在 Z Code 上,用户甚至可以用手机远程指挥桌面端 Agent。

值得一提的是,Z Code 也是全程由 GLM 模型参与开发的。

二、可一键接入 OpenClaw,还能直出 Word 文档、PDF

除了编程之外,GLM-5 也可作为通用 Agent 助手的基座模型。

在 OpenClaw 中接入 GLM-5 后,用户可以让 GLM-5 帮你搜索网站、定时整理资讯、发布推文、编程等。

智谱已经推出了 AutoGLM 版本的 OpenClaw,支持官网一键完成 OpenClaw 与飞书机器人的一体化配置。

GLM-5 还拥有更强的复杂系统工程和长程智能体能力,可将文本或素材直接转换为 docx、pdf 和 xlsx 文件。

在 Z.ai 和智谱清言上,用户可以让 GLM-5 直接输出产品需求文档、教案、试卷、电子表格、财务报告、流程表、菜单等文档。

GLM-5 在 Agent 能力上实现开源 SOTA,在 BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和 τ²-Bench(复杂多工具场景下的规划和执行)中,均取得开源 SOTA。

在衡量模型经营能力的 Vending Bench 2 中,GLM-5 也获得开源 SOTA。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5,展现了不错的长期规划和资源管理能力。

强化学习是提升智能体能力的重要方式。智谱在 GLM-5 中采用了全新的 "Slime" 框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率。

此外,智谱还提出了异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

结语:编程模型押注工程级能力

从 " 写代码 " 到 " 做工程 ",大模型的能力边界正在被不断推远。越来越多的大模型已经不满足于仅仅出个简易的 Demo,而是想要在长序列任务、复杂系统规划与多步骤执行上实现突破。

这种能力的进化,或许会使模型不再只是开发流程中的辅助工具,而开始具备承担完整工程环节的潜力。围绕长程规划、复杂推理与多智能体协作的能力提升,或将成为未来一段时间内编程模型升级的重点方向。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

心理咨询 编程 开源 网红
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论