AI 作画、生视频,可以「自己救自己」了?!
当大家还在为 CFG(无分类器引导)的参数搞到头秃,却依然得到一堆 " 塑料感 " 废片而发愁时,来自清华大学、阿里巴巴 AMAP(高德地图)、中国科学院自动化研究所的研究团队,推出全新方法S ² -Guidance ( Stochastic Self-Guidance ) 。
核心亮点在于通过随机丢弃网络模块(Stochastic Block-Dropping)来动态构建 " 弱 " 的子网络,从而实现对生成过程的自我修正。这不仅让 AI 学会了 " 主动避坑 ",更重要的是,它避免了其他类似方法中繁琐、针对特定模型的参数调整过程,真正做到了即插即用、效果显著。
S ² -Guidance 方法在文生图和文生视频任务中,显著提升了生成结果的质量与连贯性。
具体表现在:
卓越的时间动态: 无论是熊的运动姿态,还是赛车的动态镜头,都更具动感。
精细的细节渲染: 能够刻画出宇航员头盔的透明质感等复杂细节。
更少的视觉伪影: 有效减少了跑步者、打伞的女人等图像中的瑕疵。
丰富的艺术表达: 在抽象肖像、城堡、彩色粉末爆炸等场景中,艺术细节更加饱满。
更好的物体协调性: 猫与火箭、书与羊等组合中的物体关系更加和谐一致。
一、CFG 的瓶颈:效果失真 + 缺乏通用性
在扩散模型的世界里,CFG ( Classifier-Free Guidance ) 是提升生成质量和文本对齐度的标准操作。但它的 " 线性外推 " 本质,导致高引导强度下容易产生过饱和、失真等问题。
为了解决这个问题,学术界此前的思路是引入一个 " 监督员 " ——弱模型(weak model)。比如 Autoguidance 就提出用训练不充分的模型来修正。但这个思路在实践中遇到了核心难题:如何找到一个 " 恰到好处 " 的弱模型?
弱模型如果太弱,它的预测就接近于无用噪声,无法提供有效引导。
弱模型如果太强,它和主模型的行为又过于相似,起不到修正作用。
最关键的是,对于像 SD3 这样已经发布的大模型,我们几乎不可能再获得一个与之配套的、训练到 " 一半火候 " 的官方弱模型。这使得 Autoguidance 的思路虽然理论上可行,但在现实中往往难以复现和应用。
为了绕开这个难题,后续的一些工作尝试" 凭空制造 "弱模型。它们通过在推理时手动修改网络结构来实现,比如模糊化特定的注意力图(Attention Map),或者在视频生成中跳过某些时空注意力层。但这些方法又带来了新的问题:它们通常是高度定制化的,需要针对不同任务进行精细的参数调整和大量的实验,缺乏通用性,使用起来非常繁琐。
S ² -Guidance 则另辟蹊径,它问了一个直击灵魂的问题:我们能不能不找外援,也不搞复杂的调参,让模型自己监督自己,并且这个过程是通用且自动的?
二、S ² -Guidance 的精妙构思:" 随机丢模块 " 就够了
S ² -Guidance 在生成质量流形上的工作机制如下图所示。
生成过程从当前状态(M ₜ,橙色线框)向下一个状态(M ₜ₋₁)演进。标准 CFG 提供了一个强力但不够精准的引导方向(灰色箭头),它无法精确地命中代表最高质量的 " 山峰 "(黄色峰值)。S ² -Guidance 的改进之处在于:它通过随机丢弃网络模块的策略,计算出一个 " 自我修正 " 的预测(蓝色箭头," 随机丢弃后的预测 ")。最终,合成的 S ² -Guidance 引导向量(紫色箭头)能更精准地将生成过程引向流形上的最优区域,最终得到保真度更高的结果。
第一步:通过随机模块丢弃,动态构建内生子网络
高性能扩散模型(如 SD3)的核心架构多为 Transformer,由一系列功能相似的 Block 堆叠而成。研究表明,这类大型网络存在显著的模型冗余(model redundancy)。
S ² -Guidance 巧妙地利用了这一点。如图 2 所示,在每个推理步骤中,它通过随机模块丢弃(Stochastic Block-Dropping)这一策略,在前向传播时临时 " 跳过 " 或 " 屏蔽 " 掉一小部分网络模块。这个过程等效于在推理时动态地、无成本地构建出一个轻量化的内生子网络(intrinsic sub-network)。
这个子网络并非外部训练的 " 弱模型 ",而是完整模型的一个原生变体。由于部分功能模块被临时禁用,其预测能力相对受限,而它的预测结果恰恰暴露了完整模型在高认知不确定性(epistemic uncertainty)区域的" 潜在错误倾向 "。这种方法的优越性在于,它是一种通用且自动的策略,无需研究者手动判断应修改哪个特定模块,也无需为不同任务设计不同的 " 手术方案 "。
第二步:利用子网络预测进行负向引导
当子网络给出了其预测方向后,S ² -Guidance 执行了其最关键的一步:负向引导修正。它并非尝试去靠近或模仿子网络的预测,而是主动地排斥(repel)它。
这在 S ² -Guidance 的引导公式中体现得淋漓尽致,其核心逻辑可以直观地理解为:
最终引导方向 = 标准 CFG 引导方向 - 子网络预测的 " 高不确定性 " 方向
通过这个简单的" 纠错式减法 ",模型在保持 CFG 强引导力的同时,被一个源自内部的修正信号 " 拉回 ",从而精准地规避了那些可能导致生成低质量、不真实结果的 " 陷阱区域 "。最终,该方法在无需外部模型和繁琐参数微调的前提下,实现了便捷、通用且高效的自我优化。
理论先行:在 " 玩具实验 " 中验证可行性
在提出这个大胆的假设后,研究团队首先在一维和二维的高斯混合分布(Gaussian Mixture)这种有精确解的 " 玩具实验 " 上进行了验证。结果(如下图 - 图 3 所示)非常清晰:
S ² -Guidance 实现了引导强度与分布保真度的平衡。 在玩具实验中,CFG(红框)会扭曲分布,而 S ² -Guidance 能精准地捕获真实数据分布(半透明区域)的位置和形状,缓解了模式分离和分布失真的问题。
CFG(b) 虽然比无引导好,但生成的分布中心明显偏离了真实位置(红色框)。
Autoguidance(c) 有所改善,但仍不完美,难以找到合适的弱模型导致其效果受限。
而 S ² -Guidance(e) 生成的分布,在位置和形状上都与真实的半透明分布更加贴合,证明了这种 " 自我纠错 " 机制缓解了 CFG 的分布失真问题。
有了理论上的坚实基础,团队才将其推广到更复杂的图像和视频生成任务中。
三、实验效果:全方位、可量化的质量提升
理论说得天花乱坠,不如看疗效。S ² -Guidance 在各大 SOTA 模型上,展现出了令人信服的、全方位的实力提升。
1 全面的视觉质量提升
开篇的这张对比图(图 1)就是最好的证明。简单来说,S ² -Guidance 让生成结果在多个维度上实现了飞跃:
动态感更强: 无论是熊爬树时更有力的动作,还是赛车镜头里传达出的速度感,时间动态(temporal dynamics)都远超 CFG。
细节更精致: 宇航员头盔的透明质感、抽象画作的笔触、彩色粉末爆炸的瞬间,细节(finer details)都得到了惊人的保留和渲染。
伪影更少: 跑步的人、打伞的女人等场景中,CFG 常见的肢体扭曲和物体粘连等伪影(fewer artifacts)被有效消除。
物体一致性更好: " 猫和火箭 "、" 书和羊 " 这类组合中,物体间的关系和比例(improved object coherence)更协调。
S ² -Guidance 在美学质量和指令遵循度上,总能生成更出色的图像。 可以看到,像 CFG、APG、CFG++ 和 CFG-Zero 这些现有的引导方法,常常会生成各种瑕疵,比如不自然的伪影、变形的物体,或者干脆无法理解复杂的指令(见红框)。而 S ² -Guidance 方法则能产出干净、协调、观感舒适的图像,完美地规避了这些问题。
2 同台竞技,更胜一筹
当和其他先进的引导方法(如 APG、CFG++、CFG-Zero)同台竞技时,S ² -Guidance 的优势就体现在稳定性上。在图 4 中可以看到,对于复杂的 prompt,其他方法(红色框内)往往会产生扭曲的物体或不自然的伪影,或者干脆无法遵循完整的指令。而 S ² -Guidance 则能稳定地生成干净、连贯且高度符合 prompt 描述的图像,在美学质量(aesthetic quality)和指令遵循度(prompt coherence)上都表现出色。
图 5. S ² -Guidance 能够生成时间和物理上都更合理的视频,解决了 CFG 的两大核心问题。 顶行对比: CFG 无法生成合理的运动,它让卡车诡异地 " 横向漂移 " 而不是向前开(见红框)。相比之下,S ² -Guidance 渲染出了一个稳定又真实的行车场景。 底行对比: CFG 没有完全理解指令,生成的光线并未 " 环绕 " 人脸(红色框),并且也漏掉了 " 发光粒子 " 这一细节(蓝色框)。而 S ² -Guidance 则忠实地还原了整个 prompt,生成了一个动态感十足、视觉元素丰富的场景。
3 视频生成:告别 " 指令遗忘症 ",拥抱物理真实感
在视频生成中,S ² -Guidance 更是解决了 CFG 的两个核心痛点:
物理真实性: 遵循物理规律是生成可信视频的基础。如图 5 顶行所示,对于 " 一个停车计时器和一辆卡车 " 的场景,CFG 在处理物体运动时出现了严重失真。视频中的卡车并没有正常行驶,而是呈现出一种不符合物理常识的" 横向漂移 ",这种不自然的滑动破坏了整个场景的真实感。相比之下,S ² -Guidance(第二行)则成功渲染出一个稳定且逻辑自洽的场景,物体的运动状态真实可信
复杂指令遵循: 对于 " 金线编织并环绕她的脸,周围还有发光粒子 " 这样的复杂描述,CFG 不仅忽略了关键的 " 环绕 " 动作(光线没有在脸周围运动),还漏掉了 " 发光粒子 "。S ² -Guidance 则忠实地还原了整个动态、丰富的视觉场景,一个细节都不少。
4 硬核数据:领先的性能表现
这些视觉提升的背后,是HPSv2.1、T2I-CompBench、VBench等权威榜单上实打实的领先成绩。例如,在 SD3 模型和 T2I-CompBench 基准上,S ² -Guidance 在颜色、形状、纹理等维度的得分上均超越了包括 CFG-Zero 在内的所有对比方法。在 VBench 视频评测中,S ² -Guidance 同样在总分、语义一致性等多个关键指标上取得了最优性能。
△HPSv2.1、T2I-CompBench 榜单上的对比
△图 7:VBench 榜单上的对比
视觉效果对比
S ² -Guidance:
Baseline:
四、不只是有效,而且高效
搞这么一套 " 自我纠错 " 系统,会不会很慢?答案是几乎不慢。
研究者在论文中通过严谨的消融实验证明,哪怕在每个去噪步骤中只分裂出一个 " 小号 "(即 N=1),效果也和分裂出几十个小号取平均(Naive S ² -Guidance)几乎一样好。
这得益于扩散过程单一步的微小随机抖动,在几十上百步的迭代中会被自然地 " 平均 " 掉,最终共同将生成结果稳稳地导向高质量的终点。
一句话总结:S ² -Guidance 用较小的计算代价,实现了显著的质量提升。
论文 : https://arxiv.org/abs/2508.12880
项目主页 : https://s2guidance.github.io/
项目代码 : https://github.com/AMAP-ML/S2-Guidance
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦