智谱开源千亿参数视觉推理模型，号称全球最强

日前智谱方面发布开源视觉推理模型 GLM-4.5V，并已同步在魔搭社区与 Hugging Face 上线。据了解，该模型总参数为 106B，激活参数达 12B，号称是全球 100B 级效果最佳的开源视觉推理模型。

据悉，GLM-4.5V 是基于智谱新一代旗舰文本基座模型 GLM-4.5-Air 打造，延续了 GLM-4.1V-Thinking 的技术路线，支持 64K 多模态长上下文、图像及视频输入，并通过三维卷积提升视频处理效率。此外该模型还新增了 " 思考模式 " 开关，使得用户可灵活选择快速响应或深度推理，平衡效率与效果。

据智谱方面介绍，GLM-4.5V 采用预训练、监督微调（SFT）和强化学习（RL）三阶段策略。其中在预训练阶段，结合大规模图文交错多模态语料和长上下文内容，强化了模型对复杂图文及视频的处理能力。在 SFT 阶段，智谱方面引入显式 " 思维链 " 格式训练样本，增强了 GLM-4.5V 的因果推理与多模态理解能力。

而在 RL 阶段则引入全领域多模态课程强化学习，通过构建多领域奖励系统（Reward System），结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），使得 GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

据了解，通过高效混合训练，GLM-4.5V 具备覆盖不同种视觉内容的处理能力，实现了全场景视觉推理，包括图像推理（场景理解、复杂多图分析、位置识别），视频理解（长视频分镜分析、事件识别），GUI 任务（屏幕读取、图标识别、桌面操作辅助），复杂图表与长文档解析（研报分析、信息提取），Grounding 能力（精准定位视觉元素）等。在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能，涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

目前 GLM-4.5V API 已上线智谱开放平台，并为所有用户准备了 2000 万 Tokens 的免费资源包。

值得一提的是，为帮助开发者直观体验 GLM-4.5V 的模型能力，打造专属于自己的多模态应用，智谱还同步开源了一款桌面助手应用。据悉，该桌面应用可实时截屏、录屏获取屏幕信息，并依托 GLM-4.5V 处理多种视觉推理任务。

【本文图片来自网络】

宙世代

一起剪

相关标签