智东西 03-31
智谱发布全新Agent,集深度研究和操作执行于一体,背后模型媲美DeepSeek-R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编辑 | 程茜

智东西 3 月 31 日消息,今天,智谱在中关村论坛上正式发布AutoGLM 沉思,这也是全球首个集深度研究与实际操作能力于一体的 Agent

AutoGLM 沉思突破了实时联网搜索、动态工具调用、深度分析和自我验证,实现了真正的长程推理和任务执行,这也是国内首个正式开放的 Deep Research 功能。

经智谱内部评估,AutoGLM 沉思背后的深度思考模型 GLM-Z1-Air,在性能表现上可以与 DeepSeek-R1(671B,激活 37B)媲美

目前,该功能已经正式上线智谱清言网页端、PC 端和手机 App,免费、不限量地开放。智谱此次发布的为 preview 版本,核心支持 research 场景;在未来两周,其将进一步扩展更多智能体执行能力,包括推出 " 虚拟机 " 版本。

其技术演进路径包括:GLM-4 基座模型 → GLM-Z1 推理模型→ GLM-Z1-Rumination 沉思模型→ AutoGLM 模型。其中核心链路的模型和技术,智谱将于 4 月 14 日正式开源,并将在未来两周内陆续上线 MaaS 平台。

体验地址:https://autoglm-research.zhipuai.cn/?channel=autoglm_android

一、AutoGLM 沉思三大关键特性,让机器 " 边想边干 "

智谱打造 AutoGLM 沉思的目标就是:让机器不仅能够思考,还能主动行动,实现 " 边想边干 "。

这一能力的实现依赖于三个关键特性:

深度思考能够模拟人类在面对复杂问题时的推理与决策过程;感知世界能够像人一样获取并理解环境信息;工具使用能够像人一样调用和操作工具,完成复杂任务。

AutoGLM 沉思融合了以上三大能力。与 OpenAI 的 Deep Research 不同,它不仅能深入研究,还能真正执行任务,推动 AI Agent 从单纯的思考者,进化为能交付结果的智能执行者。

AutoGLM 沉思模型的背后,是智谱自主研发的全栈大模型技术,融合了GLM-4 的通用能力、GLM-Z1 的反思能力、GLM-Z1-Rumination 的沉思能力,以及 AutoGLM 的自动执行能力

1、新版基座模型

基于最新的技术积累,智谱重新训练了 320 亿参数的基座模型 GLM-4-Air-0414,在预训练阶段加入了更多的代码类、推理类数据,并在对齐阶段针对智能体能力进行了优化,模型在工具调用、联网搜索、代码等智能体任务上的能力得到大大加强。

GLM-4-Air-0414 以 32B 参数量比肩更大参数量的国内外主流模型,这使得模型在适配智能体任务方面特别有效,是因为智能体任务往往涉及多轮复杂交互,32B 的参数量使得 GLM-4-Air-0414 能快速执行复杂任务。

2、新版推理模型

基于 GLM-4-Air-0414,智谱引入了更多推理类数据,并在对齐阶段深度优化了通用能力,推出了全新的深度思考模型 GLM-Z1-Air。

在性能表现上,GLM-Z1-Air 可以与 DeepSeek-R1(671B,激活 37B)媲美。智谱在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中对 GLM-Z1-Air 进行了评估,评估结果显示 GLM-Z1-Air 展现了较为强大的数理推理能力,为更多复杂任务的解决提供了支持:

在推理速度上,GLM-Z1-Air 相比 R1 提升了 8 倍,成本可以降低至 1/30。

此外,GLM-Z1-Air 可在消费级显卡上运行。

智谱还在 MAAS 平台上将免费模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414,并推出了对应的推理版本 GLM-Z1-Flash,在保留大部分效果的情况下更轻量级、更高速,完全免费调用。

3、沉思模型

基于 GLM-Z1,智谱通过扩展强化学习训练,提升了模型结合工具使用完成长程推理能力,训练出沉思模型 GLM-Z1-Rumination。

该模型突破了传统 AI 单纯依赖内部知识推理的局限,结合实时联网搜索、动态工具调用、深度分析和自我验证,形成完整的自主研究流程:

实时搜索可以主动获取最新信息,突破信息孤岛;深度分析进行多角度逻辑推理,避免单一思维路径;动态验证可以不断修正假设,提高研究的准确性与逻辑性。

GLM-Z1-Rumination 能够主动理解用户需求,在复杂任务中不断优化推理、反复验证与修正假设,使研究成果更具可靠性与实用性。

4、AutoGLM

智谱的 AutoGLM 系列再次取得重要进展。

在斯坦福大模型中心《AI 指数 2024》选定的智能体基准评测 AgentBench 上,AutoGLM 系列模型在 5 个测试环境中也取得了 SOTA 的成绩。其中,在 Phone Use 基准(AndroidLab & AndroidWorld)中,AutoGLM-Phone 的任务成功率较此前最佳成绩提升超过 20%;在 Browser Use 基准上,AutoGLM-Web 也全面超越 OpenAI GPT-4o 和 Anthropic Claude-3.5-Sonnet,展现了在网页交互场景中的领先能力。

在 GUI 智能体领域,智谱自研模型 GLM-PC(CogAgent)在多个权威评测榜单上取得 SOTA 成绩。凭借 9B 参数规模,CogAgent 超越了包括 GPT-4o+UGround、Claude Computer Use 等更大规模的同类模型或商用 API。

二、聚焦 Agentic GLM 研发,联手金融、教育、医疗、政务、企服赛道

智谱在 AI Agent 领域的研发,包括从最早推出具备 Function Call 能力的智谱清言,到率先上线支持智能体编排的 GLMs,再到推出全球首个设备操控智能体 AutoGLM。

2025 年,智谱将战略聚焦 Agentic GLM 的研发。

技术方面,智谱将依托原创自主大模型技术,持续推动具备逻辑推理和深度思考能力的 Agent 基座模型与通用基座模型的研发,再到智能体框架与 Agent 应用,朝着让机器像人一样思考和行动的目标不断前进。

智谱还将搭建Agentic LLM 平台,助力生态合作伙伴利用智谱模型与智能体的强大能力,构建行业、地域与场景深度融合的智能体应用。

行业生态方面,智谱将作为模型厂商,帮助应用合作伙伴在 GLM 模型上实现成功的大模型应用。目前,智谱已携手金融、教育、医疗、政务、企服等领域的合作伙伴,共同推进 Agentic LLM 的落地应用。

与此同时,智谱也相继与北京、杭州、上海、成都、珠海等城市达成合作,与当地龙头企业携手推动当地大模型应用生态的建设。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

deep 中关村 开源 自主研发
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论