视频生成一长就漂移竟是前序帧「太干净」惹的祸！研究揭示共享噪声水平才是长视频稳定关键

自回归视频生成越往后越崩的问题有救了！

随着视频生成向长时序演进，自回归（AR）扩散模型因其支持流式输出的特性，受到了学术界和工业界的广泛关注。然而，现有的 AR 生成范式在迈向 " 无限长 " 时，始终面临一个核心痛点：训推不一致导致的误差累积。这使得生成的视频越往后，时序漂移和画面崩坏问题（drift）就越严重。

为了缓解这一退化问题，现有的方法尝试了多种路径，例如模拟预测误差、引入 First frame sink 或者 Self-rollout 机制。但这些修补方案都存在各自的局限性，比如使用 frame sink 往往会导致视频的场景变化受到严重限制。

长时序下的漂移问题，其根源到底在哪里？

「自回归生成的初衷」与「干净上下文的陷阱」

自回归视频生成模型的初衷，是为了像语言模型一样，一段一段地生成视频，从而突破单次生成的物理显存限制。在这个过程中，主流的做法是等待前一个视频块完全去噪，变成 " 干净 " 的画面后，再作为条件输入给下一个块。

由中国科技大学、香港中文大学、同济大学、腾讯混元、安徽省数字安全重点实验室的人员组成的研究团队回溯源头分析后发现，这种 " 过于干净 " 的上下文，恰恰是导致时序漂移的罪魁祸首。在实际推理中，前序块的生成不可避免地会带有微小的预测误差。当模型接收到一个完全没有噪声（或极少噪声）的上下文时，它会以极大的置信度将这些 " 瑕疵 " 当作绝对正确的真实条件。随着自回归步数的增加，这种误差被不断传递并成倍放大，最终导致了严重的 Drift。

HiAR：完全去噪的上下文不是必须的

为了「探究 drift 仍然存在的原因」以及「高效的解决这个问题」。中科大，MMLab，同济和混元团队联合推出HiAR。

前序帧完全去噪是必须的吗？

团队首先重新审视了双向扩散模型（Bidirectional Diffusion）。在双向生成中，所有视频帧是共享噪声水平、同时去噪的，并没有让前序帧提前去噪干净，也能保持全局的连续性和一致性。本质来说，这是由于扩散模型在往往有 coarse-to-fine 的生成模式，coarse 阶段的去噪需要 coarse 的 context 就足够了。这一规律同样可以迁移到 Causal AR Diffusion 中，基于此，团队重新规划了帧间依赖关系，推出层次去噪框架。

HiAR 不再串行地等待前一个视频块完全生成，而是在每一个去噪步中，对所有的视频块进行因果生成。这意味着，上下文和当前生成块始终共享相同的噪声水平。这种简单的重构，不仅大幅减少了块与块之间的误差传递，还带来了一个意外之喜——它天然支持流水线并行推理。

HiAR 如何避免 " 动作僵化 "？

在自回归视频模型的蒸馏训练中，研究团队经常会遇到一个棘手的问题：模型为了轻易降低损失，会寻找捷径，倾向于生成几乎静止的 " 低运动幅度 " 视频。

为了解决这个问题，团队在训练阶段引入了前向 KL 正则化（Forward-KL regularizer）。这里有一个非常有趣的发现：当前蒸馏得到的 Causal 模型，实际上仍然保留了相当不错的 Bidirectional attention 能力。基于这个现象，团队在双向注意力模式下计算前向 KL 正则损失。这使得模型在不干扰原有蒸馏损失的前提下，被有效约束去保持原视频的动态多样性与合理的运动幅度。

实验证明，这一设计让 HiAR 在保持画面稳定的同时，完美保持了教师模型的高动态表现力。

HiAR 效果如何？分钟级无退化生成

研究团队在权威的 VBench 长视频（20s）基准测试上对 HiAR 进行了全面评估。结果表明，HiAR 展现出了当前自回归模型的显著优势。特别是在长时序的稳定性上，HiAR 的 Drift Score（漂移分数）降到了最低（0.257），相比基线方法显著减少了时序漂移，在长时序下依然保持了极高的画质与语义稳定。在 Quality 等核心视觉指标上，HiAR 也取得了最优成绩。

更令人兴奋的是，HiAR 真正实现了分钟级的无退化视频生成。

在团队的测试中，HiAR 成功实现只训练 5 秒长度视频的情况下生成了 3 小时的高质量连续视频。

当然，团队也坦诚地指出，由于当前版本没有引入任何外部记忆模块，并且只使用了 Wan1.3B 小模型蒸馏，在极长时序下视频的语义连续性以及指令遵从会受到一定影响，但画质退化（drift）已经得到了很大的改善（欢迎大家使用团队的开源代码进行尝试）。

HiAR 推理快吗？

除了生成质量的飞跃，HiAR 在工程落地上的优势同样明显。得益于分层去噪架构打破了传统 AR 模型 " 逐块串行 " 的枷锁，团队在 4 步去噪的设置下解锁了流水线并行推理能力。实验数据显示，在不牺牲任何视频质量的前提下，HiAR 实现了约 1.8 倍的推理加速，吞吐量达到 30 fps，单 chunk 延迟低至 0.30s。这为高质量长视频的实时流式生成铺平了道路。

长视频生成的正确道路是什么？

目前解决训推不一致的方法是模拟预测误差，first frame sink 或者 self-rollout，但这三者都存在各自的问题。

HiAR 为自回归长视频生成解决这个问题提供了一种新的思路，证明了简单的共享噪声水平就能够有效打破误差累积的魔咒。团队的方法独立于 frame sink 以及基于 context 压缩的方法，具有很大的发展空间。

论文标题：

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

论文链接：

https://arxiv.org/abs/2603.08703

代码：

https://github.com/Jacky-hate/HiAR

网页：

https://jacky-hate.github.io/HiAR/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签