量子位 前天
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_tiyu1.html

 

近年来,基于扩散模型的图像生成技术发展迅猛,催生了 Stable Diffusion、Midjourney 等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:

训练复杂性:VAE 旨在将高维图像压缩至低维隐空间,并能从中重建图像。但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。

高昂的微调成本:当需要在新的领域(域外数据集)上微调生成模型时,如果预训练的 VAE 在该领域表现不佳,则必须连同生成模型一起微调,这无疑会显著增加训练成本和开发周期。

为了从根本上解决 VAE 带来的诸多限制,EPG 中提出通过自监督预训练(SSL Pre-training)与端到端微调(End-to-End Fine-tuning)相结合的方式,彻底去除了生成模型对 VAE 的依赖。

其核心优势在于:

训练效率与生成效果双重突破:在 ImageNet-256 和 512 数据集上,EPG 在训练效率远超基于 VAE 的主流模型 DiT/SiT 的同时,仅仅通过 75 次模型前向计算就取得了更优的生成质量,FID 分别达到了 2.04 和 2.35。

首次实现像素空间的一致性模型训练:在不依赖 VAE 及预训练的扩散模型权重的前提下,EPG 首次成功在像素空间中端到端地训练了一致性模型(Consistency Model),在 ImageNet-256 上仅需单步即可取得 8.82 的 FID。

在 8xH200 上测得的训练开销。*: 基于官方代码预估训练方法:" 像训练图像分类器一样训练生成模型 "

EPG 的核心思想借鉴了计算机视觉领域经典的 " 预训练 - 微调 " 范式,将复杂的生成任务解耦为两个更易于处理的阶段。

第一阶段:自监督预训练 ( SSL Pre-training ) —— 解耦表征学习与像素重建

EPG 的核心洞察在于,生成模型本质上需要从带噪图像中学习高质量的视觉表征。受此启发,EPG 创新地将学习表征与重建像素解耦为两个独立的学习阶段。

在第一阶段,模型仅需利用自监督表征学习算法,从带噪图像中提取高质量的视觉特征。这一阶段只训练模型的前半部分网络——编码器(Encoder)。然而,现有表征学习方法难以直接应用于噪声图像,尤其当噪声完全覆盖图像内容时。

为解决此问题,EPG 提出了一种简洁而高效的解决方案:让模型在干净图像上学习 " 标准 " 表征,再通过一致性损失将该表征对齐(传递)给带噪图像的表征。具体地,文中选取 ODE 采样路径上的相邻两点作为带噪图像对,以保证每个带噪版本都能学习到唯一的、与干净图像对齐的表征。

此阶段的预训练损失函数包含两部分:

a. 对比损失 ( Contrastive Loss ) :从干净图像中学习高质量的初始表征。 b. 表征一致性损失 ( Representation Consistency Loss ) :将带噪图像的表征与干净图像的表征对齐。

训练方法总览。

(左图)预训练方法。c 是一个可学习表征,t0, tn, tn-1 为时间步条件,y1,y2 为每一次训练所采样图片 x0 进行数据增强后的图像,xtn, x_tn-1 为 ODE 采样路径上时序上相邻的两点。θ 是网络参数,θ ^- 是 theta 的 EMA 版本,sg 表示 stop gradient 操作。(右图)端到端微调方法。预训练结束后,仅使用 E θ  加随机初始化的解码器 D_ θ 进行端到端微调。

第二阶段:端到端微调 ( End-to-End Fine-tuning ) —— 无缝衔接下游生成任务

预训练阶段完成后,EPG 的微调过程十分直接:将预训练好的编码器(E θ)与一个随机初始化的解码器(D θ)拼接,然后直接使用扩散模型或一致性模型的损失函数进行端到端微调。

EPG 的训练框架与经典的图像分类任务框架高度相似,这极大地简化了生成模型的训练流程,降低了开发和应用下游生成任务的门槛。

实验

EPG 在 ImageNet-256 和 ImageNet-512 两大标准数据集上验证了其有效性。

将去噪训练作为微调目标(扩散模型)的生成效果:

将一致性训练作为微调目标(单步生成)的生成效果:

训练效率与生成质量:

实验证明,EPG 框架不仅完全弥补了以往像素空间训练与隐空间训练在效率和效果上的差距,更在同等计算资源下实现了超越。这为未来在更高分辨率、更大数据集上的训练,乃至视频生成等领域,提供了极具参考价值的解决方案。

推理性能:

基于 EPG 训练的扩散模型,在推理时仅需 75 次模型前向计算即可达到最优效果,步数远低于其他方法。此外,EPG 的骨干网络采用 Vision Transformer(ViT)且 Patch Size 为 16x16,在 256x256 图像上的单张生成速度可媲美 DiT;在 512x512 图像上(使用 32x32 的 Patch Size),其生成速度依然能和在 256x256 的速度保持一致,展现了优异的可扩展性。

总结

EPG 框架的提出,为像素空间生成模型的训练提供了一条简洁、高效且不依赖 VAE 的全新路径。

通过 " 自监督预训练 + 端到端微调 " 的两阶段策略,EPG 成功地将复杂的生成任务分解为目标明确的表征学习和像素重建两个步骤。这不仅使其在训练效率和最终生成质量(FID 低至 2.04)上全面超越了依赖 VAE 的 DiT 等主流模型,更重要的是,EPG 首次在完全不依赖任何外部预训练模型(如 VAE 或 DINO)的情况下,实现了像素空间内一致性模型的端到端训练,取得了单步生成 8.82 FID 的优异成绩。

这项工作不仅为图像生成领域带来了性能与效率的双重提升,也为视频生成、多模态统一模型等前沿方向提供了极具潜力的基础框架。EPG 所代表的 " 去 VAE 化 "、端到端的训练范式,将进一步推动生成式 AI 的探索与应用,降低开发门槛,激发更多创新。

论文链接:

https://arxiv.org/pdf/2510.12586

代码仓库链接:

https://github.com/AMAP-ML/EPG

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

计算机视觉 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论