AI 生成一张图片,你愿意等多久?
在主流扩散模型还在迭代中反复 " 磨叽 "、让用户盯着进度条发呆时,阿里智能引擎团队直接把进度条 " 拉爆 " 了——
5 秒钟,到手4 张 2K 级高清大图。
针对 Qwen 最新开源模型,将 SOTA 压缩水平从 80-100 步前向计算,骤降至2 步(Step),速度提升整整40 倍。
这意味着,此前像 Qwen-Image 这样需要近一分钟才能吐出来的一张图片,现在真的成了 " 眨眼之间 "。

目前,团队已将相应的 Checkpoint 发布至 HuggingFace 和 ModelScope 平台,欢迎开发者下载体验:
HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps
同时,该模型已经集成到呜哩 AI 平台上(https://www.wuli.art)支持调用。
上述这种近乎 " 物理外挂 " 般的蒸馏方案,究竟是怎么做到的?一起来看。
传统轨迹蒸馏的 " 细节困境 "
早期的蒸馏方案 [ 1,2 ] ,往往可以被归纳为轨迹蒸馏(Trajectory Distillation)。
具体来看,其本身主要思想是希望蒸馏后模型(student model)能够模仿原模型(teacher model)在多步生成的路径:
Progressive Distillation:student model 需要直接对齐 teacher model 多次迭代后的输出;
Consistency Distillation:student model 需要保证在 teacher model 的去噪轨迹上,输出相同的结果。
但在实践中,这类方法很难在低迭代步数下实现高质量生成。最突出的问题是生成图像模糊,这一现象在近期研究 [ 3 ] 中也得到了验证:

问题根源在于约束方式:轨迹蒸馏直接对 student model 的生成样本做约束,使其在特定距离度量下对齐 teacher 预测出的高质量输出,具体可以表达为:
其中是特定的距离函数,是 teacher 经过多次去噪以后得到的输出。
可以看出,这一 Loss 对所有图像 patch 一视同仁,对于一些特别细节的部分(如文字、人物五官)因占比低而学习不充分,student 模型的细节常出现明显扭曲。
从样本空间到概率空间,直接降低缺陷样本生成概率
近期,基于概率空间的蒸馏方案,在较少步数场景(4~8 步)获得了巨大的成功,基本解决了上述的细节丢失问题。
其中最有影响力的工作之一是DMD2 算法,这里具体的算法方案可以参考原论文 [ 4 ] 。
DMD2 将约束从样本空间转换到了概率空间,其 Loss 设计为:
这是典型的 Reverse-KL 的蒸馏 Loss,其本身有一个显著的特性:
当,如果,那就会有。
这意味着:对于 student model 生成的每一张图片,如果它不符合真实图片分布(),就会导致 Loss 爆炸。
因此,DMD2 这类算法的本质思想是——不直接告诉 student" 应该模仿什么 ",而是让 student 自己生成图片,然后让 teacher model 指导 " 哪里不对 "。
这种 Reverse-KL Loss 的设计,可以显著提升生成图片的细节性和合理性,已经成为当下扩散步数蒸馏的主要策略。
热启动缓解分布退化
尽管 Reverse-KL 可以显著降低不合理样本的生成概率,其本身也存在着严重的mode-collapse 和分布过于锐化的问题 [ 5 ] 。
具体表现在多样性降低,饱和度增加,形体增加等问题上。这些问题在 2 步蒸馏的设定下变得尤为突出。
为了缓解分布退化问题,常见做法是给模型一个更合理的初始化 [ 6 ] 。在这里该团队使用 PCM [ 7 ] 蒸馏进行模型热启动。
实验表明,热启动后的模型的形体扭曲问题得到明显改善。
△左图为直接 dmd 训练,右图为经过 PCM 热启动后的 2 步模型,更好的初始化可以降低不合理构图对抗学习引入真实数据先验
如上所述,DMD2 本质上是 " 学生生成— > 教师指导 ",蒸馏过程不依赖真实数据,这种做法有优有劣:
优势:极大提升方案普适性(高质量真实数据难获取);
局限:设定了天然上限—— student 永远学习 teacher 的生成分布,无法超越 teacher。
同时由于 loss 设计的问题,DMD2 蒸馏在高质量细节纹理(如苔藓、动物毛发等)上生成的效果,往往差强人意,如下图所示。
△左图为 Z-Image 50 步生成,右图为 Z-Image-Turbo 8 步生成,在苔藓细节纹理上 DMD2 不够细腻
为了增强 2 步 student model 在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN)来进一步提升监督效果。
GAN 的 Loss 可以拆解为:
生成 Loss(让生成图骗过判别器):
判别 Loss(区分真假图):
这里是 student 生成的图片,是训练集中引入的真实数据,是判别器根据输入样本判断其为真实数据的概率。
简单来说,对抗训练一方面需要判别器尽可能判定 student model 生成的图片为假,另一方面需要 student model 尽可能欺骗判别器。
为了提升对抗训练的稳定性和效果,该团队做了如下改进:
真实数据混合策略:按固定比例混合高质量真实数据和 teacher 生成图,提升泛化度和训练稳定性;
特征提取器引入:使用额外的 DINO 模型作为 feature extractor,提供更鲁棒的特征表示;
Loss 权重调整:增加对抗训练在 loss 中的占比。
经实验验证,增加对抗训练后,student model 的画面质感和细节表现发生显著提升:

△增加 GAN 显著提升画面真实性和细节从应用效果出发,细节决定成败
极少步数扩散生成一直是一个重要的方向。
然而,单一算法方案受限于其本身的原理设计,往往不尽如人意。
阿里巴巴智能引擎团队正是从落地效果出发,逐个发现并分析蒸馏带来的效果问题(如扭曲、纹理确实),并针对性解决,才能使得最后的 2 步生成模型,最终达到工业场景可落地的水准。

然而,尽管在大多数场景下 Wuli-Qwen-Image-Turbo 能够和原模型比肩;但在一些复杂场景下,受限于去噪步数,仍存在可改进空间。团队在后续的 release 中将会持续发布速度更快、效果更好的生成模型。
接下来,他们将持续推出,并迭代更多扩散加速技术,并开源模型权重。
而以上这些突破的背后,离不开他们长期以来的深厚积淀——
作为阿里 AI 工程系统的建设者与维护者,团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注大模型训推性能优化、引擎平台、Agent 应用平台等关键组件,致力于为阿里集团各业务提供高效稳定的 AI 工程基础设施。
智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在内的多项优秀开源项目。
未来,他们期待与开源社区共同成长,希望将更先进的工程能力转化为触手可及的创作工具。
该团队所有技术后续都会同步在呜哩 AI 平台上线,无论你是专业设计师、内容创作者,还是 AI 爱好者,呜哩或许都能让你的创意即刻成像。
点击文末" 阅读原文 ",可前往呜哩官网体验!
参考文献:
[ 1 ] Progressive Distillation for Fast Sampling of Diffusion Models
[ 2 ] Consistency Models
[ 3 ] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
[ 4 ] Improved Distribution Matching Distillation for Fast Image Synthesis
[ 5 ] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α - β -Divergence
[ 6 ] Transition Matching Distillation for Fast Video Generation
[ 7 ] Phased Consistency Models
* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见




登录后才可以发布评论哦
打开小程序可以发布评论哦