5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

AI 生成一张图片，你愿意等多久？

在主流扩散模型还在迭代中反复 " 磨叽 "、让用户盯着进度条发呆时，阿里智能引擎团队直接把进度条 " 拉爆 " 了——

5 秒钟，到手4 张 2K 级高清大图。

针对 Qwen 最新开源模型，将 SOTA 压缩水平从 80-100 步前向计算，骤降至2 步（Step），速度提升整整40 倍。

这意味着，此前像 Qwen-Image 这样需要近一分钟才能吐出来的一张图片，现在真的成了 " 眨眼之间 "。

目前，团队已将相应的 Checkpoint 发布至 HuggingFace 和 ModelScope 平台，欢迎开发者下载体验：

HuggingFace：https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps

ModelScope：https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

同时，该模型已经集成到呜哩 AI 平台上（https://www.wuli.art）支持调用。

上述这种近乎 " 物理外挂 " 般的蒸馏方案，究竟是怎么做到的？一起来看。

传统轨迹蒸馏的 " 细节困境 "

早期的蒸馏方案 [ 1,2 ] ，往往可以被归纳为轨迹蒸馏（Trajectory Distillation）。

具体来看，其本身主要思想是希望蒸馏后模型（student model）能够模仿原模型（teacher model）在多步生成的路径：

Progressive Distillation：student model 需要直接对齐 teacher model 多次迭代后的输出；

Consistency Distillation：student model 需要保证在 teacher model 的去噪轨迹上，输出相同的结果。

但在实践中，这类方法很难在低迭代步数下实现高质量生成。最突出的问题是生成图像模糊，这一现象在近期研究 [ 3 ] 中也得到了验证：

问题根源在于约束方式：轨迹蒸馏直接对 student model 的生成样本做约束，使其在特定距离度量下对齐 teacher 预测出的高质量输出，具体可以表达为：

其中是特定的距离函数，是 teacher 经过多次去噪以后得到的输出。

可以看出，这一 Loss 对所有图像 patch 一视同仁，对于一些特别细节的部分（如文字、人物五官）因占比低而学习不充分，student 模型的细节常出现明显扭曲。

从样本空间到概率空间，直接降低缺陷样本生成概率

近期，基于概率空间的蒸馏方案，在较少步数场景（4~8 步）获得了巨大的成功，基本解决了上述的细节丢失问题。

其中最有影响力的工作之一是DMD2 算法，这里具体的算法方案可以参考原论文 [ 4 ] 。

DMD2 将约束从样本空间转换到了概率空间，其 Loss 设计为：

这是典型的 Reverse-KL 的蒸馏 Loss，其本身有一个显著的特性：

当，如果，那就会有。

这意味着：对于 student model 生成的每一张图片，如果它不符合真实图片分布（），就会导致 Loss 爆炸。

因此，DMD2 这类算法的本质思想是——不直接告诉 student" 应该模仿什么 "，而是让 student 自己生成图片，然后让 teacher model 指导 " 哪里不对 "。

这种 Reverse-KL Loss 的设计，可以显著提升生成图片的细节性和合理性，已经成为当下扩散步数蒸馏的主要策略。

热启动缓解分布退化

尽管 Reverse-KL 可以显著降低不合理样本的生成概率，其本身也存在着严重的mode-collapse 和分布过于锐化的问题 [ 5 ] 。

具体表现在多样性降低，饱和度增加，形体增加等问题上。这些问题在 2 步蒸馏的设定下变得尤为突出。

为了缓解分布退化问题，常见做法是给模型一个更合理的初始化 [ 6 ] 。在这里该团队使用 PCM [ 7 ] 蒸馏进行模型热启动。

实验表明，热启动后的模型的形体扭曲问题得到明显改善。

△左图为直接 dmd 训练，右图为经过 PCM 热启动后的 2 步模型，更好的初始化可以降低不合理构图对抗学习引入真实数据先验

如上所述，DMD2 本质上是 " 学生生成— > 教师指导 "，蒸馏过程不依赖真实数据，这种做法有优有劣：

优势：极大提升方案普适性（高质量真实数据难获取）；

局限：设定了天然上限—— student 永远学习 teacher 的生成分布，无法超越 teacher。

同时由于 loss 设计的问题，DMD2 蒸馏在高质量细节纹理（如苔藓、动物毛发等）上生成的效果，往往差强人意，如下图所示。

△左图为 Z-Image 50 步生成，右图为 Z-Image-Turbo 8 步生成，在苔藓细节纹理上 DMD2 不够细腻

为了增强 2 步 student model 在细节上的表现能力，阿里智能引擎团队引入了对抗学习（GAN）来进一步提升监督效果。

GAN 的 Loss 可以拆解为：

生成 Loss（让生成图骗过判别器）：

判别 Loss（区分真假图）：

这里是 student 生成的图片，是训练集中引入的真实数据，是判别器根据输入样本判断其为真实数据的概率。

简单来说，对抗训练一方面需要判别器尽可能判定 student model 生成的图片为假，另一方面需要 student model 尽可能欺骗判别器。

为了提升对抗训练的稳定性和效果，该团队做了如下改进：

真实数据混合策略：按固定比例混合高质量真实数据和 teacher 生成图，提升泛化度和训练稳定性；

特征提取器引入：使用额外的 DINO 模型作为 feature extractor，提供更鲁棒的特征表示；

Loss 权重调整：增加对抗训练在 loss 中的占比。

经实验验证，增加对抗训练后，student model 的画面质感和细节表现发生显著提升：

△增加 GAN 显著提升画面真实性和细节从应用效果出发，细节决定成败

极少步数扩散生成一直是一个重要的方向。

然而，单一算法方案受限于其本身的原理设计，往往不尽如人意。

阿里巴巴智能引擎团队正是从落地效果出发，逐个发现并分析蒸馏带来的效果问题（如扭曲、纹理确实），并针对性解决，才能使得最后的 2 步生成模型，最终达到工业场景可落地的水准。

然而，尽管在大多数场景下 Wuli-Qwen-Image-Turbo 能够和原模型比肩；但在一些复杂场景下，受限于去噪步数，仍存在可改进空间。团队在后续的 release 中将会持续发布速度更快、效果更好的生成模型。

接下来，他们将持续推出，并迭代更多扩散加速技术，并开源模型权重。

而以上这些突破的背后，离不开他们长期以来的深厚积淀——

作为阿里 AI 工程系统的建设者与维护者，团队聚焦于大模型全链路工程能力建设，持续优化研发范式，专注大模型训推性能优化、引擎平台、Agent 应用平台等关键组件，致力于为阿里集团各业务提供高效稳定的 AI 工程基础设施。

智能引擎团队始终坚持开放共享的技术文化，此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在内的多项优秀开源项目。

未来，他们期待与开源社区共同成长，希望将更先进的工程能力转化为触手可及的创作工具。

该团队所有技术后续都会同步在呜哩 AI 平台上线，无论你是专业设计师、内容创作者，还是 AI 爱好者，呜哩或许都能让你的创意即刻成像。

点击文末" 阅读原文 "，可前往呜哩官网体验！

参考文献：

[ 1 ] Progressive Distillation for Fast Sampling of Diffusion Models

[ 2 ] Consistency Models

[ 3 ] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY

[ 4 ] Improved Distribution Matching Distillation for Fast Image Synthesis

[ 5 ] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α - β -Divergence

[ 6 ] Transition Matching Distillation for Fast Video Generation

[ 7 ] Phased Consistency Models

* 本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签