全天候科技 7小时前
IPO前夕,智谱上线旗舰大模型GLM4.7
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在推进 IPO 的关键节点,智谱 AI 正式上线并开源其最新旗舰模型 GLM-4.7,新版本针对 Coding 场景着重强化了编码能力、长程任务规划与工具协同,标志着该公司技术产品线的又一次重要迭代。

12 月 23 日,智谱正式上线并开源其最新旗舰模型 GLM-4.7,在多项主流公开基准测试中,GLM-4.7 展现了具有竞争力的性能,部分指标超越了目前市场的领先模型。数据显示,在全球百万用户参与盲测的专业编码评估系统 Code Arena 中,GLM-4.7 位列开源第一、国产第一,并超越了 GPT-5.2。同时,该模型在 SWE-bench-Verified 和 LiveCodeBench V6 等测试中均取得了开源 SOTA(当前最佳)分数,对齐 Claude Sonnet 4.5。

在架构上,GLM-4.7 引入了 " 保留式思考 " 与 " 轮级思考 " 机制,显著提升了复杂任务的稳定性与可控性。在前端生成质量方面,模型对 UI 设计规范的理解得以增强,能够生成审美更佳的网页与 PPT。目前,该模型已通过 BigModel.cn 提供 API 服务,并在 z.ai 全栈开发模式中上线 Skills 模块,支持多模态任务的统一规划。

此次更新标志着国产大模型在 " 思考 " 与 " 行动 " 协同能力上的进一步突破。随着 Coding 能力的增强,开发者能够更自然地以 " 任务交付 " 为核心组织开发流程,这一进展也被视为智谱在资本市场动作前夕展示技术肌肉的重要举措。

编码与推理能力刷新基准

根据公布的测试数据,GLM-4.7 在编程和推理能力上实现了显著提升。在 HLE(" 人类最后的考试 ")基准测试中,该模型获得 42.8% 的成绩,较上一代 GLM-4.6 提升 41%,并超越了 GPT-5.1。

在代码生成领域,GLM-4.7 展现了在多语言编码方面的优势。具体评测数据包括:

SWE-bench-Verified:获得 73.8% 的开源 SOTA 分数。

LiveCodeBench V6:达到 84.9% 的开源 SOTA 分数,超过 Claude Sonnet 4.5。

Terminal Bench 2.0:达到 41%,提升幅度达 16.5%。

此外,在工具调用能力方面,GLM-4.7 在 τ² -Bench 交互式工具调用评测中得分 87.4 分,刷新开源记录。

引入可控 " 思考 " 模型

为解决复杂任务中的稳定性问题,GLM-4.7 强化了思考能力的可控进化,具体体现在三个维度:

交错式思考:模型在每次回答或工具调用前进行预先思考,以提升对复杂指令的遵循能力及代码生成质量。

保留式思考:支持在多轮对话中自动保留思考块,提升缓存命中率,从而降低长程任务的推理成本。

轮级思考:允许在该会话内按 " 轮 " 控制推理开销,简单任务关闭思考以降低时延,复杂任务开启思考以确保准确性。

这种机制使得 GLM-4.7 能够在 Claude Code、TRAE、Kilo Code、Cline 和 Roo Code 等主流编程框架中实现 " 先思考、再行动 " 的逻辑,在实际编程任务的稳定性和可交付性上优于前代版本。

前端审美与全栈交付

针对前端开发场景,GLM-4.7 提升了对视觉代码的理解力。在实际应用中,模型能够更好地遵循 UI 设计规范,在布局结构、配色和谐度及组件样式上提供具备美感的默认方案,减少人工微调时间。

据官方演示,该模型在办公创作中的版式审美显著升级,PPT 16:9 的适配率从 52% 跃升至 91%,生成结果基本达到 " 即开即用 " 标准。

在实际案例演示中,GLM-4.7 已能独立完成如 " 植物大战僵尸 "、" 水果忍者 " 等高交互小游戏的开发,显示出较强的任务拆解与技术栈整合能力。

市场反馈:性价比与实战表现

GLM-4.7 上线后迅速引起了全球开发者社区的关注,用户反馈主要集中在其实际解决问题的能力与极高的性价比上。

在社交媒体上,网友 Diego 分享了使用 GLM-4.7 编写 Python 代码来可视化单行道红绿灯的案例,评价称结果 " 整体运行良好 ",仅指出车辆颜色随红绿灯变化的细微瑕疵。

网友 Alex Fazio 则表示在 WebDev Arena 上的表现令其震惊,直言 "GLM-4.7 超越了 GPT-5.2"。

价格策略也成为市场讨论的焦点。网友 Bessi 指出,订阅一年 GLM-4.7 的费用仅相当于 Codex 或 Claude Code 最高级计划一个月的价格,并认为这种极具竞争力的定价模式将对西方 AI 公司构成挑战,直言 " 无论你是否喜欢,这就是未来 "。

针对模型进化速度,网友 Chubby 评论称,HLE 基准测试原本被设计为极其复杂、难以在短期内拟合的最终测试,但业界在短短 12 个月内通过各类工具将成绩从 8%(o1)提升至 45.8%,GLM-4.7 此次取得的突破表明技术迭代速度正 " 超出预期 "。

评论
大家都在看