上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升

很多人第一次觉得图像生成模型已经足够强，往往是在它能快速画出一张看上去不错的图的时候。但真正开始频繁使用之后，又会慢慢发现另一面。

比如做一张活动主视觉，前几次生成里主体、色调、氛围都对了，可一放大细节就会发现手部、材质、边缘关系经不起看。再比如给一篇文章配封面，模型明明理解了主题，却总在最后呈现时把重点元素放错位置，或者让画面风格和语义之间出现轻微但难以忽视的偏差。

这正是当前生成式 AI 进入大规模应用之后，行业越来越在意的一类问题。今天的 diffusion 模型已经不缺生成能力，缺的是更稳定、更可控、也更符合真实使用过程的生成机制。

过去几年，行业主要依靠更大的模型、更多的数据和更强的算力推动效果上升，但当模型能力不断逼近高位之后，很多问题开始不再表现为能不能生成，而是能不能稳定地生成对。换句话说，竞争的重点正在从模型会不会画，转向模型能不能在每一步都朝着正确方向画。

这个变化非常关键，因为它意味着生成模型的发展正在从规模驱动走向机制驱动。

在这个背景下，来自上海交通大学与 vivo BlueImage Lab 的研究团队提出了《C ² FG Control Classifier Free Guidance via Score Discrepancy Analysis》。研究切中的恰恰是行业正在遇到的那个深层矛盾。

过去广泛使用的 guidance 方式，本质上默认生成过程中的条件引导强度可以保持固定，但真实的 diffusion 过程并不是静止的，模型在不同阶段对条件信息的依赖程度并不一样。研究人员抓住的，正是这种长期存在却常被经验调参掩盖的问题。

从这个意义上看，C ² FG 代表的不只是一次技术修补，而是一种研究视角的变化。它提醒行业，下一阶段真正重要的问题，可能不再只是把模型做得更大，而是更精确地理解生成过程内部到底发生了什么，并据此重新设计控制方式。

论文地址：https://arxiv.org/pdf/2603.08155

C ² FG 更改进了生成分布本身

在实验结果方面，研究团队围绕 ImageNet 这一核心任务首先验证了方法的整体效果。对比可以发现，在常规的 DiT 模型上，引入 C ² FG 之后最直接的变化是生成结果明显更接近真实分布，这一点体现在 FID 从 2.29 下降到 2.07，同时 IS 从 276.8 提升到 291.5，而 Precision 基本保持在 0.83，Recall 从 0.57 上升到 0.59。

这组变化共同说明，研究人员的方法并没有通过牺牲质量来换取多样性，而是在保持原有精度的情况下，同时让生成图像更清晰、类别更明确，并且覆盖到更广的真实分布区域。相比之下，如果只看单一指标，很难看出这种 " 同时提升多个维度 " 的效果，而这里的数据组合恰好体现了这一点。

更关键的是，这种改进在强模型上依然成立。以 SiT-XL/2 为例，本身已经处在较高性能水平，固定 guidance 时 FID 为 1.80，而 C ² FG 可以把它进一步压到 1.51，同时 IS 从 284.0 提升到 315.0。虽然 Precision 从 0.81 略微变为 0.80，但 Recall 从 0.61 提升到 0.62，这说明整体生成能力仍然是增强的，而不是简单的权衡变化。

换句话说，在模型已经很强的情况下，仍然能够在 " 更真实 " 和 " 更丰富 " 之间取得更好的平衡，这一点本身就说明问题不在模型能力，而在 guidance 机制。

当实验推进到更接近性能上限的设置时，这种趋势依然存在。即使原方法已经达到 FID 1.42 这样的水平，引入 C ² FG 后仍然可以进一步降低到 1.41，这种微小但稳定的改进说明，随着模型不断逼近极限，误差来源越来越集中在机制层面，而不是网络本身。

类似的现象也出现在更复杂的高分辨率任务中，在 512 × 512 设置下，原方法的 FID 为 6.81，而 C ² FG 可以降低到 6.54，同时 IS 从 229.5 提升到 280.9，这表明在更困难的生成条件下，方法依然能够改善图像结构和整体清晰度，而不是只在简单场景中有效。

研究团队还将验证扩展到不同类型的任务中。在文本生成图像任务中，虽然整体提升幅度不如 ImageNet 明显，但趋势保持一致，例如 U-ViT 的 FID 从 5.37 下降到 5.28，Stable Diffusion 的 CLIP 分数从 31.8 提升到 31.9，这说明这种方法不仅适用于类别条件，还对文本条件同样有效，只是在更复杂语义约束下改进幅度会相对温和。

进一步在像素空间任务中，原模型已经可以达到 FID 1.58，在强 baseline 的帮助下下降到 1.04，而加入 C ² FG 后仍然可以继续降低到 1.03，这种在接近极限区域仍然存在的改进，直接说明误差并不是来自模型表达能力，而是来自 guidance 的使用方式。雷峰网

从更贴近实际应用的角度来看，研究人员还分析了推理步数减少时的表现。在 50 步和 20 步这两种设置中，FID 都出现了稳定下降，并且在 20 步这种更极端的低计算预算下，提升反而更加明显。这意味着，当每一步的决策变得更加关键时，动态 guidance 的优势会被放大。

最后，通过一个简单的二维 toy 实验，研究团队展示了更直观的现象，传统方法会产生明显偏离目标分布的异常样本，而 C ² FG 基本不会出现这类 outliers，生成分布也更贴近真实分布，这进一步说明改进不仅体现在视觉效果上，更体现在整体概率分布的正确性上。

基于逐层验证的实验设计框架

在实验经过的安排上，研究团队之所以设计这么多层次的实验，并不只是为了说明 C ² FG 比原来的方法更好，而是希望进一步回答一个更核心的问题，也就是这种方法为什么会更好。

围绕这个目标，研究人员搭建了一个逐层推进的验证体系。第一层是机制验证，重点去测条件分支和无条件分支之间的差异，结果发现这种差异并不是固定不变的，而是会随着时间不断变化。

第二层是分布验证，也就是通过 toy 实验去观察生成结果是否更接近真实分布，从而判断改进究竟发生在视觉层面，还是已经深入到分布层面。

第三层是性能验证，研究团队把方法放到 ImageNet 这种核心任务中，直接检查各种指标能否得到提升。第四层是泛化验证，在这一层里，研究人员主动更换模型、更换任务，也更换采样方式，目的就是确认这种改进并不依赖某一种特定结构或某一种实验条件。

第五层则是极限验证，专门去测试强模型和少步数这两类更苛刻的情境，因为如果方法在这些设置下仍然有效，就更能说明它反映的是一种稳定规律，而不是偶然现象。

这样一层一层推进之后，整个实验就形成了一条完整的证据链，最后支持的结论也就不再只是 " 效果更好 "，而是 " 这种改进背后确实存在可以重复验证的机制 "。

在这一系列实验中，最关键的观察集中在 diffusion 过程不同阶段的变化上。研究人员发现，在早期阶段，条件信息和无条件信息之间几乎是接近的，二者差异很小，这意味着如果在这个时候仍然使用固定而且较强的 guidance，就容易出现引导过强的问题。

相反，到了后期阶段，这种差异会迅速增大，也就是说模型越来越需要条件信息去把生成过程拉回到目标分布附近，如果 guidance 依旧保持固定，就会显得不够，无法提供足够的约束。

正是在这个意义上，研究团队提出的 C ² FG 才显得重要，因为它的作用不是简单地把 guidance 变大或者变小，而是自动匹配这种随时间变化的差异，让前期不过强、后期不不足，从而使整个生成过程更符合真实的 diffusion 动态。

对 diffusion 本质的修正

从实验意义来看，这项研究的重要性，不只是把几个指标继续提高了一点，而是说明研究团队发现了 diffusion 生成模型里一个更本质的问题。

过去很多方法默认 guidance 在整个生成过程中都可以保持固定，但实验结果表明，问题并不只是参数怎么调，而是这种固定做法本身就不符合生成过程的实际变化。

因为研究人员在不同任务、不同模型和不同设置下都观察到了稳定提升，所以可以说明，C ² FG 修正的不是某一种局部技巧，而是条件信息参与生成时普遍存在的偏差。这也意味着，研究真正推进的，不只是一个新方法，而是一种对生成机制更准确的理解。

这种意义在强模型上的表现尤其有说服力。像从 1.80 降到 1.51 这样的提升，如果放在普通模型上已经很明显，而出现在本来就接近极限的强模型上，就更能说明剩余误差主要不是模型能力不够，而是 guidance 的作用方式还不够合理。

换句话说，研究团队证明了，未来提升生成模型的效果，并不一定只能依赖更大的模型、更多的数据或更长的训练时间，也可以来自对生成过程中引导机制的重新设计。

少步数实验的意义则更贴近日常应用。研究人员发现，步数越少，C ² FG 的优势越明显，这说明在计算资源有限的时候，固定 guidance 带来的误差会被放大，而动态 guidance 更能减少这种问题。

对普通人来说，这种改进最终可能体现在更直接的使用体验上，比如生成速度更快，等待时间更短，对设备性能的要求更低，同时生成结果也更稳定，不容易出现模糊、跑偏或者细节崩坏。

toy 实验进一步说明，C ² FG 改善的也不只是图像表面的清晰度，而是让生成结果在整体分布上更接近真实目标，这意味着普通用户在使用生成工具时，更容易一次得到自然、合理、符合需求的结果，而不必反复修改和重试。雷峰网

再往深一点看，这项研究的价值还在于，它让生成模型的发展方向变得更清楚了。研究团队最核心的贡献，不只是把 guidance 从常数改成时间函数，而是用系统实验说明，生成过程中的条件引导本来就应该随着时间变化。

这个结论不仅能帮助后续研究找到更合理的设计思路，也有机会让现有生成系统以比较低的成本得到升级。最后落实到普通人身上，就是未来的图像生成工具有可能变得更快、更稳，也更容易普及。

宙世代

一起剪

相关标签