智东西 03-04
智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 程茜

编辑 | 心缘

智东西 3 月 4 日消息,今天,大模型独角兽智谱发布首个支持生成汉字的开源文生图模型——CogView4

该模型有 60 亿参数,支持原生中文输入和中文文本到图像生成。其主要更新在于,CogView4 可以理解中英文双语提示词,且将中英文字符融入图像之中,并支持上百字复杂提示词输入。

与 CogView3-Plus-3B 相比,CogView4 的提示词长度上限从 224 Tokens 增加到了1024 Tokens

CogView4 在文生图基准测试 DPG-Bench 中综合评分排名第一。

目前,CogView4-6B-0304 版本已经开源,将于 3 月 13 日上线智谱清言(chatglm.cn)。

这也是是首个遵循 Apache 2.0 协议的图像生成模型,后续智谱会陆续增加 ControlNet、ComfyUI 等生态支持,并即将推出全套的微调工具包。

GitHub 地址:

https://github.com/THUDM/CogView4/blob/main/README_zh.md

一、中英文海报原图直出,上百字提示词精准理解

CogView4 支持中英双语提示词输入,擅长理解和遵循中文提示词,能根据用户需求将中英文字符融入生成的图像中。

如下图所示的 " 无敌炒面 " 海报:

还能根据图像风格变换字体:

英文和数字也可以与画面内容自然融合:

CogView4 可以为古诗词制作插图,根据诗句意境描绘出对应的画面:

如下图的提示词是:野径云俱黑,江船火独明。黑云、船、灯光、野径,这些主要元素都呈现了出来。

此外,CogView4 支持超长提示词生成四格漫画,或者超长且复杂的提示词生成更为精细的画面。

下方生成的四格漫画其提示词近 700 个字,包含漫画的主要人物、四段剧情等。

如果用户对画面细节要求高,也可以通过完整的表述将画面的每一个细节都概括到位,如:

一幅超现实微距摄影或 3D 数字艺术,画面左边是一半的蒲公英花冠。花冠的半边超微距特写占据了整个画面,极致细节,种子上缀满晶莹剔透的水滴,如梦如幻。蒲公英的花梗细小,花冠的细丝纤细透明,每一根上都附着着微小的水珠,折射出周围的光线,形成无数微小的光斑,营造出梦幻而精致的视觉体验。景深效果,淡紫色背景并灰色渐变,使背景呈现出柔和的模糊渐变,增强画面纵深感。带有微微的冷色调光晕,使画面更加宁静而神秘。画面光效极为细腻,每一颗水珠都像微型镜头一般,折射出世界的微观景象,增强了精密与梦幻的氛围。高动态范围(HDR)光影效果,确保水滴的透明度、反射和折射层次丰富,极具视觉吸引力。

二、DPG-Bench 基准测试排名第一,中文文字准确率评测超快手可图

在文本到图像生成的DPG-Bench 基准测试中,CogView4 综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench 主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

在 Geneval 基准测试中,CogView4 综合评分为 0.73,排名第二。

在用于开放式世界组合式文本到图像生成的综合基准 T2I-CompBench 中,CogView4 综合评分 0.7786,排名第二。

中文文字准确率评测中,其结果显示,CogView4 表现效果好于国产开源绘画模型快手可图。

三、擅长理解中文,支持任意分辨率

CogView4 的技术优势体现在两个方面:

首先,支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型。

CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder,并通过中英双语图文对进行训练,使 CogView4 模型具备双语提示词输入能力。

其次,该模型支持输入任意长度提示词,能生成范围内任意分辨率图像。CogView4 模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。

图像位置编码CogView4 采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。

扩散生成建模模型采用 Flow-matching 方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

DiT 模型架构上,CogView4 延续上一代的 Share-param DiT 架构,并为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。

CogView4 采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。

训练框架优化,从文本角度 CogView4 突破了传统固定 Token 长度的限制,允许更高的 Token 上限,并显著减少了训练过程中的文本 Token 冗余。

当训练 caption 的平均长度在 200-300 Token 时,与固定 512 Tokens 的传统方案相比,CogView4 减少了约 50% 的 Tokens 冗余,并在模型递进训练阶段实现了 5%-30% 的效率提升。

结语:智谱开源年启动,全面拥抱 AI 普惠

此前,智谱预告 2025 年将是其开源年,要陆续开源基础模型、推理模型、多模态模型、Agent 模型等,并将这些模型全部开放源代码,CogView4 正是这一系列的第一个开源模型。

这也是近日智谱完成一笔超 10 亿元战略融资以来,其最新动向。智谱 GLM 系列大模型已在金融、医疗、教育等多个行业得到广泛应用。智谱从 2019 年成立就定下了实现 AGI 的愿景,并拥抱开源,致力于 AI 普惠。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 蒲公英 艺术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论