扩散模型自引导新范式：直接交换token就能变强！

vivo BlueImage Lab 团队投稿

量子位 | 公众号 QbitAI

扩散模型又被玩出新花样了。

一直以来，提高扩散模型生成质量的关键手段，是在推理阶段加入引导（guidance）。

要么依赖文本条件（如 CFG）——需要专门的训练策略，没有文本条件就不能用；

要么靠显式加噪破坏模型推理——然而效果有限。

现在，一种全新的思路来了：

不需要文本条件，不加噪声，不改模型，只在内部交换 token。

来自上海交大和 vivo 的研究者提出了一种十分简单但非常有效的方法：自交换引导（Self-Swap Guidance，SSG）。该工作已被 CVPR 2026 国际会议接收为 Oral。

一句话总结：

通过在空间和通道维度上交换 token 特征，把模型 " 搞差 "，再用这个 " 变差 " 的路径去指导自己的生成。

听起来简单，但却十分奏效。

现有方法有什么问题？

当前主流的引导方法是CFG （Classifier-Free Guidance）：简单来说，就是用 " 有条件输出 " 和 " 无条件的输出 " 做差，得到从 " 没那么符合语义 " 到 " 更加符合语义 " 的预测的一个方向，引导模型朝更这个由差到好的方向走，从而引导出更符合语义的生成，但它有一些主要的局限性：

必须依赖文本（prompt）的存在（没文本引导不了）

需要专门的训练过程（随机丢掉文本条件输入）

高 Guidance Scale 时容易过饱和、细节崩坏、多样性下降……

最近也有人尝试" 无条件引导 "（condition-free guidance），也就是不需要依赖文本也能够进行引导，比如：

SAG（往输入加噪声）

PAG/SEG（往 attention 加噪声）

TSG（往 timestep 向量加噪声）

但这些方法有个共同的问题：扰动添加的粒度比较粗——要么可能不够强，要么太过头。结果就是小扰动没什么引导效果，大扰动直接让图变的没法看。

如下图，现有的无条件引导方法在低引导系数下生成质量欠佳，在高引导系数下出现图像失真、过饱和、高噪声等现象。相比之下，自交换引导（SSG）的生成质量对引导系数更加鲁棒稳定。

SSG 的核心想法：不加噪声，只做 " 结构性 "

SSG 的思想非常简单：与其加噪声，不如直接对部分特征进行 " 重排 "。具体做法是，对于模型内部的 token 特征进行两个维度上的随机交换：空间维度自交换（spatial self-swap）和通道维度自交换（channel self-swap）。

在实践中，研究者发现随机选择 token 或者 channel 对进行交换就能起到比较明显的引导作用，而两两交换" 最不相似 "的一些 token 或 channel 对，引导效果最好，图片质量最佳。其原因在于可以实现更加充分的破坏，而不需要全局加噪。

具体做法是，使用两个前向推理分支。其中一个不做任何改动，原封不动地让预训练模型输出噪声预测（ϵ ori）。另一个分支会在模型的特定层执行自交换扰动，先在空间维度进行一些最不相似 token 的交换，再在通道维度进行一些最不相似通道的交换，最后得到经过扰动的噪声预测（ϵ pert）。

在推理的每个时间步上，用两个分支的噪声预测做差，用这个方向对原始噪声预测进行一个修正，修正的强度由引导系数 /omega 控制，这一引导过程与 CFG 很相似：

这种引导在每个时间步都会做一次，指导所有推理步都走完，就获得了经过引导生成的质量更高的样本，就是这么简单。

实验结果

研究者在无条件、有条件生图的设置下，使用 COCO2014、COCO2017、ImageNet 等多种真实图像数据集验证 SSG 的引导效果。在这些实验中，SSG 在多个指标上超过了现有的 SAG、SEG、PAG 等无条件引导方法。

△SD1.5 模型无文本条件生图在 ImageNet 上的定量实验结果

△SDXL 模型有文本条件生图在 COCO 2017 上的定量实验结果

具体而言，采用的定量指标包括 FID（衡量分布差异）、CLIP Score（文本遵循程度）、Inception Score（质量与多样性），以及肉眼质量指标（AES、PickScore、ImageReward）。对无条件生成也使用了 Precision 和 Recall 衡量质量与多样性。SSG 在这些指标上均取得了优异的结果。

通过对比实际生图效果，可以发现 SSG 可以更稳定地生成较高质量、更加自然的图片，在有文本条件的生成设置下，与文本的一致性更好。随机交换的性能已经超过多个现有方法，而 " 最不相似 " 交换策略可以获得更优的生成质量。

△Token 交换策略的消融实验

研究者对于不同的交换策略进行了对比，其中随机交换就已经能实现相当不错的引导效果，甚至比此前的方法都要好。交换最不相似的 token 特征在两项人类偏好分数上更优，整体上实现更佳的指标权衡。通道交换效果整体优于空间交换，二者结合使用可以实现图像质量和美学感知分数的最佳权衡。

△空间与通道交换策略的消融实验

通过对空间、通道两种交换技术进行消融实验，可以验证两种方法都能有效地引导生成，通道交换的效果整体上优于空间交换，而两种交换同时使用可以实现更好的总体效果。因此可以说两种交换在一定程度上互补——对其引导模式的可视化也展现出明显的区别。如下图，通过可视化可以发现两种交换的引导模式差异明显。

一些其他探讨

SSG 与同期工作 TPG 都在特征的空间维度上引入了扰动设计—— SSG 选择部分 token 进行空间上的位置交换，而 TPG 直接对所有 token 进行随机重排列。在指标上来说，SSG 的最不相似 token 交换方案略优于 TPG 的 token 随机重排列，而计算开销也大于后者。

此外，SSG 首次揭示了特征通道维度上的扰动对于引导扩散模型的显著效果，并且发现通道维度扰动的引导效果显著优于空间维度，这一现象为后续设计更高效的引导机制提供了新的思路。

至于该研究的局限性，首先是缺少系统性的理论支撑，以及其方法性能对于扰动添加的具体层位置较为敏感。这些也是扩散模型引导系列工作普遍存在的问题。因此，如何从理论层面对其有效性进行解释，并设计更鲁棒的扰动机制，仍是值得深入探索的方向。

另外，在模型内的多个层分别计算 token 相似度会引入一定程度的计算开销，对 SSG 计算效率的优化也将是具有实际意义的后续课题。

关于 vivo BlueImage Lab

蓝图影像创新实验室，主要负责移动影像算法创新，包括图像 / 视频处理、图像 / 视频交互、图像 / 视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升 vivo 移动影像的算法能力，使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用，努力为用户提供更加丰富和便捷的影像体验。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

【学术投稿】请在工作日发送邮件至：ai@qbitai.com，标题注明【投稿】，并告诉我们：你是谁，从哪来，投稿内容附上项目 / 主页链接，以及联系方式。

我们会 ( 尽量 ) 及时回复你 : )

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签