量子位 06-11
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

平面设计师有救了!

复旦大学和字节跳动团队联合提出CreatiDesign新模型,可实现高精度、多模态、可编辑的 AI 图形设计生成。

CreatiDesign 能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。

AI 虽然在文生图领域已取得了很大的突破,但以往方法在处理图形设计时,要么 " 偏科 ",要么缺乏精准的可控性。

而 CreatiDesign 推出了统一多条件控制的扩散 Transformer 架构,并配套构建了 40 万样本的大规模多条件标注数据集,满足实际设计需求。

挑战:需求多、数据少、控制难

在真实的平面设计场景中,用户往往会同时提供:

主视觉元素:(如产品图 /LOGO,需保持高度一致性)

辅助装饰元素:(如装饰品,用于衬托主体,需按指定位置排版)

文本内容(如 Slogan,需按指定位置排版)

这种 " 多条件异质融合 " 对先前的扩散模型提出了三大挑战:

1.多条件异质信息的统一建模难

以往的可控扩散模型大多针对单一条件(如仅控制主体图或仅控制布局或文本),缺乏将多种异质条件(图像、布局、文本等)进行统一融合和协同建模的能力。

2.多条件之间的精细解耦与区域独立控制难

即便部分最新模型初步实现了多条件输入,依然难以确保每个子控制条件能够精准、独立地控制其对应的图像区域。

3.缺乏大规模高质量、多标注的训练数据

开源的图形设计数据集有限。现有的数据集缺乏精细化、多条件的标注,难以满足模型对多样性和高质量数据的训练需求。

为此,CreatiDesign 从模型架构、数据构造等角度出发,提出了系统性的解决方案,旨在赋能扩散模型创意平面设计的能力

方法:条件协同、独立可控、流程全自动

统一多模态条件驱动

CreatiDesign 基于 MM-DiT(Multimodal Diffusion Transformer)框架,采用极简架构调整,实现了多种异质条件的协同控制:

多主体的图像条件:用户可以一次性输入多个主视觉元素(如产品图、LOGO 等),并在空白画布上任意摆布,得到多主体的图像条件。然后将此图像送入原生的 VAE 进行编码,得到一组主视觉 token。这些 token 能完整保留每个主体的细粒度视觉特征,为后续生成提供主体约束。

语义布局条件:每个辅助元素或文本的语义描述,先由 T5 文本编码器转换为语义特征 token,空间位置信息(bounding box 坐标)则经过傅立叶变换后,和语义特征拼接,再通过 MLP 进一步融合,最终得到集成了语义和空间信息的布局 token。这种方式实现了对布局元素内容和空间排布的双重精准控制。

全局描述:用户还可以输入整体的描述,同样由 T5 编码为全局描述 token,为全局内容和风格把控提供指导。

最终,所有类型的 token(主视觉 token、布局 token、全局描述 token)被拼接后输入到 MM-DiT 中。在每一层 Transformer 中,CreatiDesign 采用多模态注意力(MM-Attention)机制,使不同模态的 token 进行深度融合,从而实现多条件的联合建模和控制。

多模态注意力掩码机制

为提升每个条件的独立可控性,CreatiDesign 提出两种专属注意力掩码:

Subject Attention Mask:主体 token 仅与其指定区域内的图像 token 进行双向交互,且与布局 token、全局描述 token 及无关区域的图像 token 完全隔离,确保主体内容高度还原、独立于其他条件。

Layout Attention Mask:每个布局 token 仅与其指定区域内的图像 token 交互,同时阻断布局 token 之间、布局 token 与主视觉或全局描述 token 之间的交互,防止布局元素之间的语义串扰与不同条件之间的干扰。

这种显式的掩码机制,使每个条件都能精准、独立地调控对应图像区域,极大提升了生成结果的一致性与可控性,保证了多条件复杂设计意图的严格还原。

自动化数据集生成流水线

CreatiDesign 还提出了全自动的平面设计数据合成流程,包含:

主题生成:基于设计关键词库,使用 LLM(如 GPT-4)生成包含主视觉元素、布局元素和文本内容的多要素设计主题;

文本图层渲染:依据分层布局协议(HLG),通过渲染引擎自动生成带精准排版的文本前景图层(RGBA);

基于前景的图像生成:借鉴 LayerDiffuse 范式,联合 LoRA 模块,实现基于文本前景和主题描述背景的高质量平面设计图像生成 ;

实体检测与标注:利用 GroundingSAM2 检测所有实体(主视觉、辅助装饰),并通过 VLM 生成细粒度属性描述,实现全要素多条件的自动标注。

最终,CreatiDesign 开源了规模达 40 万组、具备多条件高质量标注的平面设计样本,为多条件可控模型的训练提供数据基础。

实验:SOTA 级性能展示

在多维度的评估基准上,CreatiDesign 在主体保持度、布局遵循度、文本正确率以及图像整体质量等关键指标上均取得了领先的性能。

具体来说,CreatiDesign 在主视觉元素的还原(如 DINO-I、M-DINO 分数)、辅助元素的空间位置与属性一致性、文本内容的准确率(Sen.Acc)和编辑距离(NED),乃至图像整体质量(IR、PickScore)等各项评价指标上,在当前主流的多主体图像驱动、布局驱动及多条件驱动的 SOTA 模型中,位居第一梯队。

从表格中可以看到,CreatiDesign 的平均综合得分高达 69.28,相比基础模型 FLUX.1-dev 的 47.50 分,提升幅度达到 45.9%。这一显著提升仅依赖于基础模型 4.1% 的额外参数量,高效得提升了基础模型在图形设计上的能力。

上图中紫色蒙版代表不一致或位置错误的主体,红色蒙版代表语义或位置不正确的实体,灰色蒙版代表不协调的背景或前景区域。

可视化结果进一步验证了 CreatiDesign 在生成结果上的优势:与以往的多条件或单条件模型相比,CreatiDesign 能够更加严格地遵循用户的设计意图,具体体现在主体元素的高度还原、辅助元素及文本的精准布局,以及整体画面的和谐一致。

对比图中可以清晰地看到,其他模型常常出现主体错位、内容缺失、文本错误等问题,而 CreatiDesign 能够准确保留各个输入要素,并实现复杂多元素的协调排布。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 复旦大学 平面设计 字节跳动 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论