OpenAI GPT-4o 发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
开源的 MLLMs 和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将 MLLMs 的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。
基于这个思路,ModelScope 团队提出可同时完成图像理解、生成和编辑的统一模型 Nexus-Gen,在图像质量和编辑能力上达 GPT-4o 同等水平,并将成果全方位开源,望引发开发者讨论,促进 All-to-All 模型领域发展。
模型先进行图像生成,然后进行图像理解的可视化案例:
Nexus-Gen 技术细节总体框架
Nexus-Gen 采用了与 GPT-4o 类似的 token → [ transformer ] → [ diffusion ] → pixels 技术路线,融合了 SOTA MLLMs 的强大文本预测能力和 Diffusion 模型的强大图像渲染能力,其总体架构如图所示。
作为一个 All-to-All 模型,Nexus-Gen 的输入和输出都支持图像和文本模态,自回归 Transformer 输出的文本 Token 进行分类后解码成对应的输出文本。而输出的视觉 Token 的 embeddings 则会作为条件输入给 Vision Decoder 中解码为输出图像。
之前的 All-to-All 模型大多直接使用自回归 Transformer 直接对图像的像素空间进行建模,然后用 VAE 等模型解码为图像,导致图像质量较差。
为了保证图像质量,Nexus-Gen 选择在高维特征空间对图像进行建模,并选择 SOTA 的扩散模型作为视觉解码器。
相比于处理单一任务的模型,All-to-All 模型的潜力在于图像理解、生成、编辑等任务可以相互促进、互相组合。
为了完成这一目标,将模型的输入和输出特征空间限定在同一个连续高维特征空间,统一使用 Vision Encoder 编码图像得到高维特征。对于理解任务,这些特征直接输入模型中作为先验。对于生成任务,这些特征则作为真值指导模型的训练。
预填充自回归策略
在训练阶段,自回归模型直接使用真值作为输入序列,然后将输入序列左移一位后计算损失函数。在推理阶段,则采用 Token-by-Token 的自回归:即每预测一个 Token,就将其送回输入,预测后续的 Token。
团队发现,将这种自回归范式,直接运用在连续特征空间的图像 Embedding 预测上,会带来比较严重的误差累计问题。
如下图所示,从第一个黄色的图像 Token 开始,预测的 Embedding 就存在误差。将带误差的 Embedding 送回输入中,会导致后续的 Embedding 预测误差不断增大,最终导致整个图像 Token 序列预测失败。
误差累计本质上是由训练和推理行为不一致导致的。为了解决这个问题,魔搭团队提出了预填充自回归的策略,如下图所示。在训练时使用可学习特殊 Token 填充对应的图像 Embedding 位置,这样就可以让模型学习直接预测任意位置的图像 Token 的能力。
在推理阶段,只要预测到图像的起始 Token BOI,就直接预填充 N 个特殊 Token 到输入序列中。通过这种方式,能够保证训练和推理阶段行为的一致性,从而消除误差累计。
任务构建与训练细节
在 Nexus-Gen 工作之前,没有看到过在统一的理解、生成和编辑任务上做训练的先例。所以魔搭团队首先从工程上,探索使用类 messages 格式来定义所有任务的数据格式。如下图所示。
之后,团队从开源社区收集了约 25M 训练数据并转化为以上统一的格式,其中,图像理解数据 6M,图像生成数据 12M,图像编辑数据 7M。
部分数据使用 Qwen-VL-max API 进行了重新标注。其中,图像编辑数据包含了团队在 ModelScope 社区最新开源的,图像编辑数据集系列 ImagePulse。
这一系列数据集中,针对 GPT-4o 不同的图像编辑能力,包含了添加、去除、改变、风格迁移等原子能力而生成的,大约 1M 高质量样本。
此外后续团队也会将其他在训练过程中使用到的全部数据,都进行开源。
由于 Nexus-Gen 将图像特征统一在 Vision Encoder 的高维空间中,因此自回归模型部分和扩散模型部分可以分开训练。
自回归模型使用魔搭开源的SWIFT 框架训练,扩散模型则使用了魔搭的DiffSynth-Studio 框架训练。下表详细描述了训练过程的细节。
自回归模型采用了三阶段训练策略,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中,最后一个阶段则采用少量高质量数据来提升模型生图质量。
扩散模型的训练目标是将输入条件由原本文本输入调整为图像 Embedding 输入,采用单阶段训练策略。
Nexus-Gen 功能展示
Nexus 同时具备图像理解、生成和编辑能力,以下是每个能力的可视化案例。
图像理解
图像生成
图像编辑
未来展望
在模型融合训练、图像 Token 数量提升、ScaleUp 数据集和模型大小等等方面,Nexus-Gen 依然存在着大量的优化潜力,目前 ModelScope 团队在这些不同方向,还在进行更深入的探索。
Nexus-Gen 的诞生,验证了从 SOTA 的 MLLMs 和扩散模型出发,来对齐以 GPT-4o 为代表的闭源 SOTA 的可能性。其效果与 GPT-4o 具备许多共同点,比如图像编辑会导致原图部分变化、可以文本润色进行多样化图像生成等;团队也发现了许多 OpenAI 团队没有揭露的现象,比如图像编辑能力极大受益于图像生成,统一模型使多 prompt 编辑、故事性编辑成为可能等等。
ModelScope 社区会持续将探索过程的模型权重、训练数据以及工程框架全部开源,欢迎社区对 Nexus-Gen 和 All-to-All 统一模型的技术未来进行广泛交流。
论文链接:https://arxiv.org/pdf/2504.21356
代码链接:https://github.com/modelscope/Nexus-Gen
模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen
数据集(ImagePulse)链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40
— 完 —
量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。
也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
登录后才可以发布评论哦
打开小程序可以发布评论哦