GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文！

当看到GLM-5正式发布后的能力，才惊觉前几天神秘模型 Pony Alpha 的热度还是有点保守了。

因为这一次，GLM-5 直接把开源 AI也拽进了长任务时代。

瞧，GLM-5 直接身兼数职，自己连续跑代码超过 24 小时，700 次工具调用、800 次上下文切换之后……

它直接用 JavaScript，从零手搓了一个Game Boy Advance（GBA）模拟器！

外观渲染画面是这样的：

屏幕里是这样的：

在没有渲染情况下的动态效果如下：

要知道，这对于 AI 来说，是一个绝对无法取巧的工程任务。

因为 GBA 模拟器涉及到了 500 多条 CPU 指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错，或者一次文件写入偏差，整个项目就会在几个小时后崩盘。

并且 GLM-5 面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此，从视频给出的结果中我们也不难发现，GLM-5 确实是发挥非常稳定：

工具调用稳定：第 700 次和第一次在语法、格式、准确度上没有差异；

指令遵循持久：上下文即使切换了 800 次，依旧遵守 Meta-Prompt 的规范、约定和流程；

工作判断稳定：GLM-5 知道自己什么时候该测试、信息记录、切换策略等；

上下文够可靠：每次上下文清空后，GLM-5 能从笔记和文件中准确恢复工作状态。

这也难怪不少网友在看完之后直呼：

它（GLM-5）可以制作精美的 CAD 模型！

并且目前 GLM-5 的评测结果也已出炉，在权威榜单 Artificial Analysis 中，直接到了与 Claude Opus 4.5 比肩的水平。

在业内公认的主流基准测试中，GLM-5 的编程能力也是实现了与 Claude Opus 4.5 对齐：

并且在衡量模型经营能力的 Vending Bench 2 中，GLM-5 取得了开源第一的成绩：

但毕竟 Claude Opus 是闭源，护城河一下子被 GLM-5 这个开源模型给端掉，也是引得不少网友欢呼：

感谢开源！

那么 GLM-5 这位开源界的第一位 " 全栈架构师 "，还有什么样的实力？

接下来，一波深度实测开源版 Opus 级别的模型，走起 ~

已经有人申请上架 App Store 了

我们的测试将在 Claude Code 中调用 GLM-5 API的方式展开。

因此，我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求 GLM-5 从零生成一个3D 版大富翁：

接下来，我们直接来看下效果：

可以看到，面对如此复杂的需求，GLM-5 稳稳地把所有功能都实现了出来。

若是 Prompt 更加精细，我们就可以得到一个 OpenClaw 对战的《龙虾版 3D 大富翁》：

而且已经有用户使用 GLM-5 做了个学术版 " 抖音 "，并且提交上架苹果 App Store！

10 余款 APP 都要上架了（showcase.z.ai）：

实测继续。

这一次，我们要测试 GLM-5 对复杂物理规律描述的理解能力，请听 Prompt：

创建一个玻璃十二面体，每个面是一个遮罩，显示中央相同旋转基底环结的不同设计（看起来像拼贴 / 滤镜）。应用一些细微的泛光效果。在它外面再加一层大约两倍大小的第二层（透明）玻璃壳，并让每个面透过时改变内部玻璃的外观成不同类型，比如透过外层的某一面，整个内壳看起来像是染色玻璃、彩绘玻璃或线框等，仅供参考。使用 three.js，……

GLM-5 依旧是精准地捕捉到了 Prompt 中的关键词，生成的 HTML 文件打开后，一个光影交错的十二面体悬浮在空中。

除此之外，包括像全栈类型任务，例如制作一个完整、有设计感的电商网站，GLM-5 也是可以拿捏。

以及有人也用 GLM-5 手搓了个 3D 版可交互的《我的世界》！

开源，Win Again

GLM-5 的出现，不论是从实测还是网友们的反响来看，都在标志一件事情：

开源大模型完成了一次从助手到独立工程师的质变。

以前，我们用 AI 是写一句 Prompt，但需要不断地去做调试的工作；但现在，用 GLM-5 可以是给它一个目标，然后去喝咖啡，偶尔回来看看它有没有跑偏。

更宏观地来看，这对于 SaaS 行业来说，也可能是一场风暴。

毕竟就在前几天，随着 Claude Opus 等具备长任务能力的闭源模型展现威力，国外市场已经出现了恐慌。

例如当时金融数据服务商 FactSet 最惨盘中暴跌 10%，S&P Global、穆迪、纳斯达克公司纷纷下跌，各大指数全线跳水。

Fortune 和 CNBC 报道称，SaaS 软件类股票遭到抛售，投资者担心，如果 AI 能现场手搓一个 CRM 系统，谁还去买年费软件。

虽然黄仁勋安抚说 AI 会增强现有工具，但 GLM-5 的实测表现告诉我们：重塑或许已经在发生。

更重要的是，之前这种能力是闭源巨头的特权。现在，GLM-5 把这把钥匙交到了所有开发者手里。

或许这次开源模型 24 小时不间断自己跑代码只是一个起点，未来会更长、更快、更好、更强。

Two More Things：

GLM 其实从 4.5 版本开始就死磕 AI 编程这件事，现在这个国产 AI 的 coding 套餐在国内外也是相当火爆；这次智谱一上来就限售，外国网友们都是在 " 求 " 的状态。

以及，智谱公司的大楼，现在也是成了个打卡点：

开头我们提到的 GBA 模拟器，由于 GLM-5 一直在跑，程序员小哥哥下班打车是这样的：Agent 乘客。

GitHub：

https://github.com/zai-org/GLM-5

Hugging Face：

https://huggingface.co/zai-org/GLM-5

ModelScope：

https://modelscope.cn/models/ZhipuAI/GLM-5

GameBoy Advance 体验：

https://e01.ai/gba

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签