GLM-4.5技术报告揭秘：如何围绕Agent构建一个模型

智谱 GLM-4.5 的发布，在近期的 AI 开源社区中引发了不小的讨论。模型放出后，它在 Hugging Face 社区的趋势榜单上表现亮眼，综合性能也在多个基准测试中位列前茅。其原生 Agent 能力的提法和颇具竞争力的定价，都成为了开发者们关注和讨论的焦点。

在模型获得了一波社区的实践和反馈之后，智谱紧接着发布了长达 25 页的详尽技术报告。这份报告同样获得了很高的关注度，登上了 Hugging Face Daily Papers 的热度榜首。

这份报告的价值在于，它系统性地阐述了其模型的设计思路，明确将 Agent、Reasoning（推理）和 Coding（代码）三种能力的统一，即 ARC，作为衡量通才模型的核心标准。

报告链接：https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

ARC 三位一体

GLM-4.5 的设计哲学的核心聚焦于 Agent、推理和代码三者的原生统一。报告在开篇就明确提出了这个主张。它认为，大语言模型（LLM）正从通用知识库演变为通用问题解决者，一个真正的通才模型，需要统一掌握三项相互关联的核心能力：

Agentic abilities ( Agent 能力 ) ：与外部工具和真实世界进行交互。

complex Reasoning ( 复杂推理能力 ) ：解决数学、科学等多步骤问题。

advanced Coding ( 高级代码技能 ) ：处理真实的软件工程任务。

这三者之间存在着紧密的内在逻辑。一个强大的 Agent，必须具备调用工具的能力，而代码（Coding）正是与数字世界交互的终极工具；同时，要完成一个复杂任务，例如根据用户需求去修复一个 GitHub 仓库里的 Bug，必然需要严密的逻辑推理（Reasoning）能力来规划步骤和理解依赖关系。

因此，GLM-4.5 的设计目标就是将这三者进行原生集成，让 Agent 能够基于优秀的推理和代码能力，去思考和行动，后续大量的技术细节，都是围绕这个目标展开。

为 Agent 打造的技术路径

一个清晰的目标，需要一条严谨的技术路径来实现。GLM-4.5 的技术报告用大量篇幅介绍了其如何从模型架构、数据处理、训练流程到最终的强化学习，一步步地将 Agent 能力注入到模型中。

模型架构：更深、更专的 MoE 设计

GLM-4.5 采用了当前大模型领域主流的混合专家（MoE）架构，以在保证性能的同时提升计算效率。报告揭示了其在具体实现上的一些独特设计选择，例如 " 瘦高 " 结构。与一些模型追求更 " 宽 "（更多的专家数量、更大的隐藏层维度）不同，GLM-4.5 团队选择了减少宽度，但增加模型深度的结构。报告提到，他们发现更深的模型在推理能力上表现更出色，这直接服务于 ARC 能力中的推理基础。此外，报告还提到了一些为增强推理能力而做的精细调整，例如模型使用了倍数于常规模型的注意力头，并引入 QK-Norm 技术来稳定训练。这些改动共同为模型打下了坚实的推理和代码功底。

GLM-4.5 与 DeepSeek-V3 与 Kimi K2 的模型架构对比

训练流程：从 " 广积粮 " 到 " 中场强攻 "

一个好的模型架构需要海量且优质的数据来喂养。报告详细介绍了其复杂的多阶段训练流程，清晰地展示了从通用到专精的演进过程。在两阶段预训练中，模型先在 15T Tokens 的通用语料上进行学习，可以理解为 " 广积粮 "。随后，则在一个 7T Tokens 的数据集上继续训练，这个数据集会重点上采样与代码和推理相关的高质量内容，相当于开始为 ARC 能力 " 定向施肥 "。

报告中一个非常有趣的环节是独特的中期训练（Mid-training）。在完成大规模预训练后，模型会进入一个专门的 " 中期训练 " 阶段，针对性地 " 强攻 " 特定能力。这个阶段主要包含三类数据：一是代码仓库级数据，将同一个代码库的多个文件拼接训练，让模型学习跨文件的依赖关系；二是合成推理数据，利用已有模型生成大量带有推理过程的问答数据；三是长上下文与 Agent 轨迹数据。这是最关键的一步，模型开始接触并学习大量的、由机器合成的 Agent 任务轨迹，同时训练的序列长度也从预训练时的 4K，一路扩展至最终的 128K。

Pre-training 和 Mid-training 的多阶段流

后训练：RL 注入 Agent 灵魂

如果说预训练和中期训练是为模型打造了强健的 " 躯体 "，那么后训练，特别是强化学习，则是为其注入 " 灵魂 " 的关键。正如一位社区开发者评论的那样，这份报告的大部分篇幅都在讲述一个复杂的后训练策略。

报告中的 RL 训练设计，处处体现出为 Agent 服务的思想。例如，Agentic RL 的训练聚焦于两类可以被程序自动验证结果的任务：基于信息检索的问答和软件工程，因为这类任务有明确的成功或失败信号，便于模型进行高效的强化学习。报告中一个值得注意的细节，是为模型的工具调用设计了一套新的 XML 格式模板，旨在解决常见 JSON 格式在参数包含代码时需要大量转义字符的痛点，直接提升了 Agent 最核心的工具调用环节的稳定性和效率。

另一个例子体现在模型的交互式解决问题能力上。如下图所示，在网页浏览这类典型的 Agent 任务中，模型的准确率会随着与环境交互轮次的增多而稳步提升。这说明模型学会的不是一次性地给出答案，而是通过持续的探索、试错和信息整合来逼近正确解，这正是 Agent 模式的核心价值所在。

BrowseComp 模型的准确率随交互轮次（测试时计算量）的增加而变化。

为了支撑如此复杂的 RL 训练，智谱还专门设计并开源了名为 slime 的 RL 训练框架。根据报告描述，这个框架的核心设计（如异步、解耦的训练架构）就是为了高效处理 Agent 任务中常见的数据生成慢、交互耗时长的痛点，体现了其构建开发者生态的意图。

总体来看，GLM-4.5 的技术报告用详尽的数据，对其以 Agent 为核心的设计理念进行了验证。

报告的评测部分体现了模型综合性能。在涵盖 Agent、推理、代码的 12 项基准测试中，GLM-4.5 的综合得分位列全球第三，Agent 能力单项排名全球第二。

报告还提供了更深入的 Agent 能力评测细节。例如，在一个名为 CC-Bench 的真实编程任务测试中，GLM-4.5 的工具调用成功率达到了 90.6%，超过了多个强有力的竞争对手。这种在实际任务中表现出的高可靠性，也让一些海外开发者评价其为 " 当今最精通工具、最原生的 Agent 模型 "。

不同模型在 CC-Bench 上的平均工具调用成功率与单轮交互的平均 Token 消耗对比。

社区的讨论也指向了另一个维度：性价比。有用户评论认为，" 性价比才是大模型落地的真正核心指标 "。这一点与 GLM-4.5 的技术选型不谋而合。其采用的 MoE 架构本身就是一种平衡效果与成本的高效方案，这种技术效率也反映在了它的市场策略上，使其能以一个普惠的价格，鼓励更多开发者进行调用和尝试，形成生态的正向循环。

这份技术报告，本质上是智谱将其以 Agent 为核心的设计思路，完整地摊在了桌面上。当模型权重、技术报告、以及 RL 训练框架 slime 三者同时被推向社区，其意义就不再只是发布一个供人调用的工具。这更像是一种开放的邀请，开发者不仅可以 " 用 " 这个模型，更可以深入地 " 学 " 它的实现方法，甚至 " 改 " 它的训练流程。这或许是更深层的价值所在。

宙世代

一起剪

相关标签