三易生活 前天
智谱开源千亿参数视觉推理模型,号称全球最强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前智谱方面发布开源视觉推理模型 GLM-4.5V,并已同步在魔搭社区与 Hugging Face 上线。据了解,该模型总参数为 106B,激活参数达 12B,号称是全球 100B 级效果最佳的开源视觉推理模型。

据悉,GLM-4.5V 是基于智谱新一代旗舰文本基座模型 GLM-4.5-Air 打造,延续了 GLM-4.1V-Thinking 的技术路线,支持 64K 多模态长上下文、图像及视频输入,并通过三维卷积提升视频处理效率。此外该模型还新增了 " 思考模式 " 开关,使得用户可灵活选择快速响应或深度推理,平衡效率与效果。

据智谱方面介绍,GLM-4.5V 采用预训练、监督微调(SFT)和强化学习(RL)三阶段策略。其中在预训练阶段,结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力。在 SFT 阶段,智谱方面引入显式 " 思维链 " 格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力。

而在 RL 阶段则引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),使得 GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

据了解,通过高效混合训练,GLM-4.5V 具备覆盖不同种视觉内容的处理能力,实现了全场景视觉推理,包括图像推理(场景理解、复杂多图分析、位置识别),视频理解(长视频分镜分析、事件识别),GUI 任务(屏幕读取、图标识别、桌面操作辅助),复杂图表与长文档解析(研报分析、信息提取),Grounding 能力(精准定位视觉元素)等。在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

目前 GLM-4.5V API 已上线智谱开放平台,并为所有用户准备了 2000 万 Tokens 的免费资源包。

值得一提的是,为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,智谱还同步开源了一款桌面助手应用。据悉,该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论