扩散模型终于学会 " 看题下菜碟 " 了!
一直以来,文生图模型都是 " 凭直觉 " 作画——不管提示词是 " 黑色的天空 " 还是 " 梵高风格的漩涡星空 ",都死板地用同一套固定步数采样。
结果就是:简单题算力过剩,复杂题细节崩坏。

中国联通数据科学与人工智能研究院联合高校提出的新框架" 轨迹链 "(CoTj),彻底打破了这一僵局。它让扩散模型拥有了 " 系统 2" 的规划能力,能根据提示词的复杂程度,动态分配计算资源。
更颠覆的是,在 5 步的极端压缩下,CoTj 规划出的轨迹配上最朴素的 1 阶求解器,画质居然吊打了传统方法配高阶求解器——证明" 找对路 " 比 " 用什么交通工具 " 更重要。
目前,该研究的论文已在 arXiv 发布,推理代码也已开源。

△ 上图直观展示了传统 System 1(固定调度)与 CoTj System 2(优化规划)的推理机制对比,以及在图像和视频生成上的真实效果差异。突破高维诅咒:引入 " 扩散 DNA"
为什么以前的模型学不会 " 慢思考 "?因为挡在研究人员面前的,是可怕的 " 状态维度灾难 "。
扩散过程发生在高维、连续的噪声流形中,状态空间的组合爆炸使得传统算法在寻找最优生成轨迹时,根本算不动,往往会陷入局部最优。
为此,中国联通数据科学与人工智能研究院的团队采用了一种 " 降维打击 " 策略,从理论本质出发提取出了一种名为 Diffusion DNA(扩散 DNA)的低维结构化特征。

△ 如图所示,低熵(简单)和高熵(复杂)的提示词在生成难度和误差曲线上存在显著差异,Diffusion DNA 能够完美捕捉这种内在的异质性分布。
你可以把它理解为扩散模型的 " 难度诊断书 "。它能够精确量化每个去噪阶段的难度分布,并作为高维状态空间的完美替身。通过这种降维映射,研究团队成功将极其复杂的采样过程,转化为了有向无环图(DAG)上的最短路径优化问题。

△ CoTj 将高维状态聚合为超级节点(Super-Nodes),构建了密集的逆时有向无环图(DAG),从而将高维随机演化转化为结构化的全局轨迹寻路优化问题。
基于此,CoTj 采用了一套极具前瞻性的" 预测 - 规划 - 执行 "(Predict-Plan-Execute)推理范式:
极速预判:模型配备了一个极轻量级的预测器,其能直接从条件嵌入(Condition Embeddings)中估算出当前的 Diffusion DNA(以 Qwen-image 为例:预测器参数量仅 0.96M,单次推理仅需 0.073 毫秒)。
图论规划:将获取的 DNA 以代数运算的时间内构建采样时间节点的 DAG 完全图并通过寻找图网络中的 " 最小作用量路径 "(Path of Least Action),将算力动态分配给生成过程中最棘手的阶段。
基于图论规划,可以选出固定步数代价下的最优采样序列或者自适应步数:
固定步数:在固定采样步数预算下,团队进行图规划以选择最适配当前条件的最优去噪轨迹。实验结果表明:在相同步数条件下,CoTj 均取得更优生成质量。从 Geneval 指标来看,无论是在基础模型还是蒸馏型文生图模型上,CoTj 均显著提升了准确性,同时实现了有效加速。


△ 在这张展示漂移惩罚的转移成本热力图中,CoTj(红实线)能够自适应地精准找到 " 最小作用量路径 ",而传统的 Euler 调度(蓝虚线)则在低误差区域浪费了大量步伐,同时高误差区采样不足
自适应步数:面对低熵的简单场景自动选择捷径;面对高熵的复杂描述则增加精细打磨的步数,直到累积的轨迹增益达到设定阈值(如 Qwen-image 为 99%),彻底杜绝无效计算。

△ 增益比(ρ)与自适应步数关系。
在 Qwen-Image 模型下,平均自适应步数随累计轨迹增益 ρ ( n ) 增长而变化。基于 25,432 条提示统计可见,在 ρ ≈ 0.99 附近出现明显相变;此后步数需求超线性上升、边际收益迅速递减。该现象验证了团队的终止准则:在接近最优重建的同时,避免逼近 ρ → 1 所带来的指数级代价。
灵魂拷问:路径规划 vs. 求解器,谁更重要?
在扩散模型的加速研究中,学术界一直痴迷于设计越来越复杂的 " 高阶数值积分求解器(Solver)"。
但 CoTj 提出了一个灵魂拷问:究竟是走什么路(轨迹规划)重要,还是用什么交通工具(求解器)重要?
实验给出了颠覆性的结论:轨迹规划是主导因素!在极端的 5 步低算力预算下,传统的线性调度方案由于没有合理分配资源,即使加上先进的高阶求解器(UCGM),生成的图像依然边缘模糊、细节丢失。相反,采用 CoTj 规划出的系统 2 轨迹,哪怕只配上最朴素的 1 阶(1st-order)Euler 求解器,也能完美还原全局几何结构和光影。当正确的规划配上高阶求解器时,更是能达到前所未有的超高真实感。

△ 5 步极端压缩下的视觉消融实验。只有基于 CoTj 规划轨迹的方法(下方两图)成功保住了苹果的几何结构和光影细节,证明了 " 找对路 " 比单纯提升求解器阶数更为关键。殊途同归:" 轨迹可达 " 与 Cache 自适应
除了比拼生成画质,CoTj 还揭示了扩散模型内在的一个迷人特性——轨迹可达性(Trajectory Reachability)。
即使总步数被大幅度压缩,只要沿着 CoTj 规划的几何最优路径行进,模型依然能抵达高保真度的 " 潜在终点(latent endpoints)"。例如,10 步的 CoTj 轨迹,其重构质量(MSE 减少超 60%,PSNR 提升超 6dB)甚至能媲美或超越传统固定分配的数十步结果。

△ 轨迹压缩与结构可达性。左图(轨迹颜色对应右图边框):扩散潜变量的逐步 L2 范数。CoTj 将长演化压缩为短路径,同时紧贴高保真参考,原始信息的痕迹仍可追踪。右图:对应的可视化重建。10 步预算下,CoTj 保留了传统调度下丢失的细节,让细节重新通过正确路径被发现和重建。
更妙的是,这种基于信息密度的轨迹规划,天生完美适配缓存(Cache)加速策略。相比于传统方法僵化地复用固定间隔的特征,CoTj 能根据预测的 DNA 引导 Cache 更新节点,精准锁定高信息密度区域进行计算复用(Cache Adaptation),在相同的步数预算下,性能直接持平甚至反超了专门针对缓存优化的 LeMiCa 算法。

△ 轨迹可达性和 cache 自适应。视频生成初见解:先稳结构,再谈动态
在验证跨模态适应性时,团队将 CoTj 应用于最新开源的视频模型 Wan2.2(40 步 49 帧)测试中,并发现了一个关于视频生成的底层逻辑——生成层级(Generative Hierarchy)。
高质量的视频运动,必须建立在极度稳定的空间结构之上。在 10 步的极限压缩下,传统基线模型会产生剧烈但崩坏的画面,这其实不是真正的动态,而是由于空间流形失真引发的" 伪运动 "(pseudo motion)和不稳定。
而具备大局观的 CoTj 此时采取了 " 保真度优先(fidelity-first)" 的策略。它会把好钢用在刀刃上,先全力稳住空间纹理和静态画质,再逐渐释放丝滑的动态效果。在充足预算(40 步)下,这种稳扎稳打的规划直接让视频的运动平滑度和动态逼真度实现了全面反超。

△ Wan2.2 视频生成(阳光下的森林)的 10 步结构验证。基线模型(上排)从第一帧就开始出现色彩偏移和结构失稳;而 CoTj(下排)则采取保真度优先策略,稳稳地维持住了清晰的纹理与光影。意外收获:给蒸馏模型 " 做体检 "
Diffusion DNA 不仅能用来找路,还是一个极其强大的 "X 光诊断仪 "。
通过分析各种模型的 DNA 曲线(即分步重建增益),团队发现:优秀的底座模型(如 Qwen-Image)的增益是单调递减的,代表着它在稳步收敛。而某些为了提速而训练的蒸馏模型(如 Z-Image-Turbo),在迭代后期依然保持着巨大的更新能量(Non-Convergent Gain),缺乏内在的收敛机制。
这就从底层原理上解释了为什么一些单步 / 少步模型在给定较多采样步数时,不仅画质没有变好,反而会出现" 过度烹饪 "(over-cooking)和画风崩坏的现象!

△ 扩散动力学的 "X 光透视 "。图中右侧的红色阴影区域暴露出,蒸馏模型 Z-Image-Turbo 在扩散后期依然保持很高的重构增益,存在结构不收敛和 " 过度烹饪 " 的隐患,而底座模型 Qwen-Image 则呈现平稳的单调衰减。结语与未来展望
中国联通数据科学与人工智能研究院带来的 CoTj 框架,不仅是一次计算效率的飞跃,更是将生成式 AI 从被动执行引向 " 资源感知规划 " 的里程碑式探索。
在末尾,团队也大方地给未来的研究方向 " 占了坑 ":这套理论基石未来将直接扩展到更复杂的视频动态建模(complex video dynamics)、引入在线反馈机制进行轨迹修正(online feedback for trajectory correction),以及探索跨模态下无监督的 Diffusion DNA 发现(unsupervised Diffusion DNA discovery across modalities)。
属于扩散模型的 " 系统 2" 深思熟虑时代,大幕才刚刚拉开!
开源代码库:
https://github.com/UnicomAI/CoTj
论文链接:
https://chinaxiv.org/abs/202603.00028
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


