智东西
作者 | 陈骏达
编辑 | 云鹏
智东西 7 月 2 日报道,今天,智谱发布了 GLM-4.1V-Thinking 系列视觉推理模型,并率先开源了 GLM-4.1V-9B-Thinking,后者的整体水平达到了同尺寸(10B 量级)视觉语言模型的领先水平,还在多项能力上超过了尺寸更大的 Qwen-2.5-VL-72B、GPT-4o 等模型。
开源之外,智谱还在今天举行的智谱开放平台产业生态大会上宣布,该公司获得浦东创投集团和张江集团联合战略投资,总额 10 亿元。同时,智谱推出全新生态平台 Agent 应用空间,并开启 Agents 开拓者计划,投入数亿资金,全方位扶持 AI Agents 创业团队。
GLM-4.1V-9B-Thinking 通过混合训练融合了丰富的多模态模型能力。这一模型能解析最长 2 小时的视频内容,或是对图像中的内容进行深入分析和解答。例如,解析球赛时,模型能理解球员的位置,看懂球员的战术特点。
视频解析能力展示(图源:智谱)
它还支持看图写网页、GUI Agent 能力等,能识别网页、电脑屏幕、手机屏幕等交互界面元素,支持点击、滑动等指令执行能力。比如,当收到用户创建日程的要求时,它能自动找到对应应用,并准确完成操作。
GUI Agent 能力展示(图源:智谱)
这一模型还擅长数学与科学推理、视觉锚定与实体定位(Grounding)等任务,后者可实现语言与图像区域的精准对齐,提升人机交互可控性。
GLM-4.1V-9B-Thinking 在 28 项评测任务中获得了 23 项同尺寸模型最佳,在 18 项任务持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B。这一效果得益于智谱引入的课程采样强化学习(Reinforcement Learning with Curriculum Sampling)策略。
目前,GLM-4.1V-9B-Thinking 已在 GitHub、魔搭、Hugging Face 上开源,这一尺寸的模型较为适合本地部署。用户也可在魔搭、Hugging Face 上直接体验到这一模型,体验页面支持上传图片、视频、PPT、PDF 等文件。GLM-4.1V-Thinking 的技术报告也一并公开。
论文链接:
https://arxiv.org/abs/2507.01006
部分开源链接:
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
部分体验链接:
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
一、训练架构围绕统一核心:用强化学习增强推理能力
论文提到,视觉 - 语言模型(VLMs)已成为现代智能系统的关键基石,使系统能够超越文本感知和理解视觉信息。在过去十年中,随着模型智能水平的显著提升,相应多模态智能任务的复杂性也相应增加。
当前,业内对模型的要求已远远超出简单的视觉内容感知,对高级推理能力的重视程度不断增加。最近,许多研究表明,长形式推理和可扩展的强化学习可以显著增强大型语言模型(LLMs)解决复杂问题的能力。
一些先前的研究尝试使用类似的范式来增强 VLMs 的推理能力,但它们主要集中在特定领域。目前,开源社区缺乏一种在广泛任务范围内持续超越传统同类参数规模非推理模型的多模态推理模型。
因此,智谱 GLM-4.1V-Thinking 的训练框架围绕一个统一目标构建:通过可扩展的强化学习全面增强模型的推理能力。
GLM-4.1V-Thinking 模型架构由三个核心模块组成:视觉编码器(ViT Encoder)、多层感知机适配器(MLP Projector)以及语言解码器(Language Decoder)。
智谱选用 AIMv2-Huge 作为视觉编码器(这是苹果提出的通用视觉编码器),GLM 作为语言解码器。
在视觉编码器部分,智谱将原始的二维卷积替换为三维卷积,尤其适用于视频理解,有效提升了处理效率。对于静态图像输入,则通过复制帧的方式以保持输入格式的一致性。
GLM-4.1V-Thinking 系列模型还对任意图像分辨率和宽高比具有一定适应能力,这得益于两项关键改进:
其一,融合二维旋转位置编码(2D-RoPE),使模型能够稳定处理极端宽高比(如超过 200:1)和超高分辨率(如 4K 以上)的图像;
其二,为保留 ViT 预训练模型的原有能力,智谱保留了其可学习的绝对位置嵌入,并通过双三次插值方式在训练过程中动态适配不同分辨率输入。
在语言解码器中,智谱对原始的旋转位置编码(RoPE)进行了三维扩展(3D-RoPE)。这一设计显著增强了模型在多模态输入处理中的空间理解能力,同时保持了其在文本生成方面的原始性能。
二、预训练工作分两步走,给模型 " 排课程 " 实现高效 RL
GLM-4.1V-Thinking 的训练过程分为三个阶段:预训练(Pretraining)、监督微调(SFT) 和强化学习(RL)。
1、预训练
在模型的预训练阶段,智谱采用了分阶段渐进式的训练策略,通过两个紧密衔接的子阶段逐步构建和提升模型的多模态理解与长上下文处理能力。
首先展开的是多模态预训练阶段,这个阶段的核心目标是打牢模型的基础能力,使其建立起对多种模态数据的通用理解。这一阶段的训练数据,既有传统的图像字幕和交错图文,也包含了更具挑战性的 OCR 识别、视觉定位 ( Grounding ) 以及指令响应等多样化数据。
随后进入的长上下文持续训练阶段,则着重拓展模型处理复杂长序列数据的能力。这个阶段,智谱引入了更具挑战性的训练素材,包括连续的视频帧序列以及 token 数量超过 8K 的超长图文混合内容。
通过这两个阶段的递进式训练,模型逐步获得了处理高分辨率图像、视频序列以及超长文本等复杂场景的能力。
2、监督微调
在微调阶段,智谱构建了一个高质量的 CoT(思维链)训练集,用于强化模型的长篇因果推理能力。
训练语料来自多个任务场景,包括数学题解、多轮对话、代理规划与复杂指令跟随,涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力,也保持了模型在语言理解与逻辑推演方面的稳定表现。
3、课程采样强化学习
在监督微调基础上,智谱引入强化学习全面优化模型性能。强化学习让模型通过与环境的交互来学习行为策略,以最大化累计奖励,课程采样强化学习在此基础上引入课程学习的思想,通过合理安排训练样本的难度顺序,使模型能够更高效地学习。
智谱结合两种方法:基于可验证奖励的强化学习(RLVR) 和基于人类反馈的强化学习(RLHF)。前者更加适用于有明确答案的问题,后者则更适用于需要人类评判模型完成效果的问题。
强化学习工作覆盖了多个关键领域:
(1)STEM 领域问题求解(数学、物理、化学)
(2)多模态信息定位与理解(OCR、实体定位、视频分析)
(3)智能体任务(GUI 交互、代理规划)
(4)文档与图表理解、逻辑推理、复杂指令执行等
通过课程采样,在这些任务上开展由易而难的动态大规模强化学习训练,模型在实用性、准确性和稳健性等方面取得了显著提升。
在基准测试中,GLM-4.1V-9B-Thinking 展现出了类似尺寸模型中领先的水平,并在通用视觉问答、STEM、OCR & Chart、长文档理解、GUI Agents 和多模态编码以及视频理解领域表现出色。
测试还探讨了多领域强化学习中不同模态领域之间是否能泛化和相互促进的问题。对 STEM、OCR & Chart、视觉定位 (Grounding ) )和 GUI Agent 这四个代表性领域的实验表明,在大多数领域中都存在强大的跨领域泛化和相互促进现象。
例如,在 STEM 数据上进行强化学习不仅提高了 STEM 领域的特定技能,还增强了视觉定位 GUI Agent 交互和通用视觉 QA 任务的性能。跨领域联合训练在每个领域中带来了更大的改进,这可能是 GLM-4.1V-9B-Thinking 良好性能的基础。
三、发布 Agent 应用空间,可一站式接入 Agent 能力
智谱还在今天发布了全新生态平台 Agent 应用空间,这是一个面向企业客户和开发者的 AI Agent 能力聚合平台。
Agent 应用空间提供 Agent 应用与模型插件(MCP)。开箱即用、灵活编排的组件服务和 Agents 应用,让企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的 Agent 能力。
这一平台还提供一站式开发工具链、完整的模型调用接口与灵活的应用组合机制。
智谱是国内较早布局智能体技术的大模型厂商之一,曾提出 Agentic GLM 战略。今年 3 月,智谱曾发布 AutoGLM 沉思智能体,能探究开放式问题,并根据结果执行操作的自主智能体(AI Agent),可以模拟人类的思维过程,完成从数据检索、分析到生成报告。
结语:智谱开源动作持续,今年已集齐五城融资
2025 年,智谱逐渐加速了其开源节奏,已经陆续推出 GLM-Z1-Air、GLM-Z1-Air、GLM-Z1-Rumination 等开源模型。智谱本次开源的新模型对 Agent 能力做了大量的针对性训练,提升了模型在 Agent 场景的使用价值,也顺应了当下 Agentic AI 的整体趋势。
4 月,智谱宣布启动 IPO 进程,但其在一级市场的融资并未放缓。今年开年以来,智谱已经获得了北京、上海、杭州、成都、珠海等五个城市的地方国资押注,融资总额超 25 亿元。这也表明,对于行业头部企业而言,大模型的吸金热还远未结束。
登录后才可以发布评论哦
打开小程序可以发布评论哦