快科技 4 月 2 日消息,智谱正式发布面向视觉编程打造的 GLM-5V-Turbo 多模态 Coding 基座模型。
该模型从预训练阶段深度融合视觉与文本能力,打破了纯文本输入的编程局限,能看懂设计稿、截图、网页界面并生成可运行代码,真正实现了看得懂画面、写得出代码。

GLM-5V-Turbo 拥有三大核心特性:
其一为原生多模态 Coding 基座,可原生理解图片、视频、设计稿等多模态输入,支持画框、截图等多模态工具调用,上下文窗口拓展至 200k,让 Agent 的感知 - 行动链路延伸至视觉交互;
其二是兼顾视觉与编程能力,在多模态 Coding、GUI Agent 等核心基准上表现领先,且通过多任务协同 RL 技术,保证纯文本场景下的编程、推理能力不退化;
其三是深度适配 Claude Code 与龙虾场景,可实现 " 看懂环境→规划动作→执行任务 " 的完整闭环,还配备全套官方 Skills,开箱即可使用。

实测数据显示,GLM-5V-Turbo 在设计稿还原、视觉代码生成等基准上均取得领先,在 AndroidWorld、WebVoyager 等 GUI 环境操控测试中表现突出,纯文本 Coding 能力也保持稳定。
在龙虾 Agent 相关测试中,模型接入后让龙虾拥有真正的视觉能力,在 PinchBench 等评测中斩获优异成绩,复杂任务执行能力得到验证。
目前 GLM-5V-Turbo 已落地图像即代码、龙虾视觉赋能等典型场景,能实现前端复刻、GUI 自主探索复刻,还能让龙虾完成 K 线图解读、图文报告生成等任务。
用户可通过 AutoClaw、Z.ai 等产品体验,也能通过官方 API 接入,多款官方 Skills 也已上线 ClawHub。






登录后才可以发布评论哦
打开小程序可以发布评论哦