智东西 12-23
新“前端之父”来了!智谱深夜放出编程炸弹,开源第一、国产第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 江宇

编辑 | 漠影

智东西 12 月 23 日报道,今日,智谱正式上线并开源了新版本GLM-4.7跑分直指开源第一梯队

GLM-4.7 在 SWE-bench、Terminal Bench 2.0、τ²-Bench、HLE 等十余项智能体与推理评测中,全面对齐甚至部分超越 GPT-5.1 与 Claude Sonnet 4.5。

而在订阅门槛上,GLM-4.7 堪比 " 价格屠夫 ":每月最低 20 元即可使用 Claude Pro 三倍用量,主打一个 " 用得起 "。

从技术上线时间点来看,这也是智谱在 IPO 前夜放出的关键一招。那么究竟效果如何?我们也第一时间在 Z.ai 上进行了实测。

GitHub:https://github.com/zai-org/GLM-4.5

Hugging Face:huggingface.co/zai-org/GLM-4.7

魔搭社区:

https://modelscope.cn/models/ZhipuAI/GLM-4.7

一、从 " 写代码 " 到 " 管任务 ",技术指标全线飘红

根据 Code Arena 面向全球开发者的专业编码盲测榜单,GLM-4.7 在 Web 开发方向排名第六,成为目前全球排名最高的开源模型,超过 GPT-5.2 与 Claude Sonnet 4.5,位列国产模型第一

从更细致的基准测试来看,GLM-4.7 最明显的升级集中在三个方面:代码、工具调用和推理能力

代码能力上,它在 SWE-bench ‑ Verified 拿到 73.8%,LiveCodeBench ‑ V6 达到 84.9%,整体水平已经对齐 Claude Sonnet 4.5,在开源模型中处于第一梯队

更偏复杂推理的任务中,HLE(" 人类最后的考试 ")成绩提升尤为明显,工具辅助条件下达到 42.8%,相比 GLM ‑ 4.6 提升超过 12 个百分点,也超过了 GPT ‑ 5.1 High

工具调用能力同样是这一代的重点方向,在 τ² ‑ Bench 中,GLM ‑ 4.7 拿到87.4%的成绩,BrowseComp 在开启上下文管理后提升至67.5%,在多轮网页任务和交互式工具调用场景中表现稳定,基本坐实了其 " 智能体向 " 模型的定位。

与这些分数变化对应的,是其内部思考机制的调整。

GLM ‑ 4.7 在此前 " 交错思考 " 的基础上,引入了保留式思考与轮级思考控制:模型会在每次生成和工具调用前先进行推理,并在多轮任务中自动保留已有的思考结果,而不是反复从零开始推导。

同时,开发者也可以按轮次决定是否启用推理过程,在简单请求中降低时延,在复杂任务中换取稳定性。

这种设计更强调长任务执行中的一致性和可控性,也正是这些机制变化,支撑了它在代码智能体、终端任务和工具协同类基准上的整体跃升。

此外,模型还针对前端美学、长文本稳定性、网页生成结构等细节做了优化。

二、100 个真实任务胜率更高,多模态技能调度能力打通开发闭环

为了验证 GLM ‑ 4.7 在实际开发任务中的表现,智谱对比测试了 100 个真实编程任务,覆盖前端开发、后端逻辑以及指令遵循等三个核心方向。结果显示,在前端任务中,GLM ‑ 4.7 相较 4.6 版本胜率提升至 64.6%,在指令遵循场景中也达到 58.3%。在最具工程复杂度的后端方向,其胜率也稳定在 46.7%。

除了单点生成能力,GLM ‑ 4.7 还进一步强化了多技能联动能力。GLM-4.7 已在 Z.ai 上线了全栈技能环境,它已接入全新的 Skills 模块,支持调用 ASR 语音识别、TTS 语音合成、GLM ‑ 4.6V 视觉模型等多个模块进行统一调度。

在多模态任务中,它既能规划路径、又能执行动作,工具之间的 " 调度逻辑 " 打通了。

三、实测:从 3D 圣诞树到 Switch 小游戏,前端效果直追 Gemini 3

本次我们通过 Z.ai 平台测试了 GLM-4.7 的三类互动任务,来看看其在 3D 控制、UI 生成与前端代码实现上的表现。

场景 1:3D 圣诞树炸开成照片墙,用手势就能控制收放旋转

这是本次测试中最具沉浸感的交互体验之一。GLM-4.7 输出了一整段可直接运行的 HTML 代码,包含完整的 3D 场景构建、粒子交互、手势识别与 UI 反馈逻辑。

初始画面是一棵由 5000 多个粒子构成的立体圣诞树,顶部悬着一颗带有辉光效果的星星。

移动鼠标时,粒子会自然产生斥力波纹,整体呈现出流动的视觉响应。

进入交互环节后,系统会调用摄像头,识别用户的手势动作。当用户张开手掌,整棵圣诞树会突然炸开,转变为一圈悬浮在空中的照片墙,照片以拍立得的形式环绕排布。如果继续左右移动手掌,照片墙会跟随旋转。而当再次握拳时,所有元素会收拢归位,照片墙重新收缩为圣诞树形态,形成完整的一轮开合动画。

此外,GLM-4.7 还在代码中集成了性能优化机制,例如使用 InstancedMesh 来渲染大量粒子,整个页面在不依赖构建工具的前提下依然保持了高帧率与良好流畅度。

场景 2:复刻 iOS 主界面,图标齐了,界面能点

我们输入提示词 "1:1 复刻 iOS 系统 ",GLM-4.7 就做出了一个模仿 iOS 的主页面:Safari、Siri、健康、钱包等图标均可点击。

日历、天气、计算器等功能页可以进入交互,计算器还能进行基础运算输入。虽然和最新款 iOS 比起来还有细节差距,但整体体验是流畅的、能用的,图标风格和颜色搭配也有基本审美。

场景 3:Switch 格斗小游戏,手柄界面 + 按键联动

我们还测试了一个双人格斗游戏任务,GLM-4.7 生成了一套完整的双人对战界面,整体风格高度还原 Switch 主机的 Joy-Con 手柄配色和布局:左侧是蓝色手柄,右侧是红色手柄,中间是游戏主屏幕。

进入游戏后,画面中出现了两个火柴人角色,一个为蓝色玩家,一个为红色敌人,头顶有动态血条显示。UI 部分在左上角呈现当前波次与敌人数量等信息。在操作体验上,左手玩家可以通过键盘 A/D 控制移动,J 攻击,K 跳跃,右手玩家则使用 U/I/O 三键分别释放技能。虽然尚未实现打击判定与技能特效,但整体界面结构、角色逻辑和按键响应已经非常完整,具备真实游戏的框架感。

整个游戏内置了节奏感很强的格斗 BGM。可见,GLM-4.7 在 UI 构建、键盘监听、动画驱动等前端关键模块中还是具备一定的可用性与稳定性。

结语:国产 SOTA 模型正值猛进阶段

从三大基准维度到真实任务测试,GLM-4.7 已跻身全球开源模型第一梯队,成为国产模型在 Agent 工具线上的关键突破点。

无论是开源代码在全球社区中已被下载超 6000 万次,还是付费 API 使用量长期居于 OpenRouter 全球前十,都说明它已逐步进入开发者的实际工具列表。

而在 GLM-4.7 上线的节点背后,是智谱即将登陆港交所的背景,也是国产大模型企业从科研模型、开源生态向 " 真实使用 " 与 " 市场验证 " 过渡的一个缩影。在这个新阶段,开源国产模型正从 " 对标国际 " 迈向 " 领跑、实用 ",而 GLM-4.7 就是这个进程中的一个关键代表。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 考试 效果 ipo
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论