视频生成进入大规模时代,但计算成本也炸了。
10 秒视频,token 数超 5 万,自注意力复杂度 O ( n ² ) ——跑不动,根本跑不动。
换线性注意力 O ( n ) ?理想很丰满,现实是:一换就崩。
为了解决这一难题,来自香港科技大学、北航、南洋理工等单位的研究团队提出:LINVIDEO:一个无需数据、无需重新预训练的后训练框架,实现视频扩散模型的高比例线性化替换,同时保持生成质量。

△ 14B 模型视频生成效果:(上)wan2.1;(中)LINVIDEO 【1.71 倍加速】;(下)4 步蒸馏 LINVIDEO【20.9 倍加速】。
论文已被CVPR 接收。在 Wan 14B 上,LINVIDEO 实现1.71 × 端到端加速;结合 4-step 蒸馏后,可达到20.9 × 加速,且视频质量几乎无损。

为什么视频扩散模型 " 难线性化 "?
LINVIDEO 先回答了一个关键问题:为什么线性注意力在一些任务上可行,但在视频扩散模型上常常 " 替换就崩 "?原因并不只是 "linear attention 近似误差更大 ",而是替换过程本身很敏感:不同层的注意力对最终生成质量的作用并不均衡,某些层替换会造成明显退化,而另一些层替换影响较小;如果用手工规则或启发式策略去选替换层,很容易出现 " 替得越多越掉点 ",或者为了不掉点而不敢替换太多层,最终加速不明显。

△ 层敏感性 / 不同层替换影响的分析
此外简单使用 MSE 做输出对齐,会引入明显的时序抖动与闪烁问题。

△ 使用 MSE 做对齐的生成效果
而 few-step 蒸馏类的 distribution matching 方法,仅对最终分布对齐,忽略中间时刻分布,导致性能明显下降。更严重的是,传统方法还需要额外训练一个辅助模型来估计 score function,训练成本极高。因此,视频模型的线性化不仅是结构问题,更是优化目标问题。
LINVIDEO:数据无关的后训练线性化框架
LINVIDEO 的整体思路可以概括为:

△ LINVIDEO 框架图。
先把 " 替哪几层 " 变成可学习问题,再把 " 怎么训回来 " 换成更适合视频的对齐目标。
在 " 替换层选择 " 上,LINVIDEO 不走手工挑层或经验规则,而是把 layer selection 视为一个二分类决策问题,提出selective transfer:让模型在后训练过程中自动、渐进地把一部分注意力层迁移到线性形式,尽量把性能损失压到最小。
直观理解就是:不是 " 一刀切 " 全换,而是让模型自己学会 " 哪些层可以安全线性化、哪些层要保留 ",并且逐步完成迁移,避免瞬间替换带来的分布突变。
LINVIDEO 还提出 anytime distribution matching(ADM):不是只对齐某个固定时刻,而是沿着采样轨迹,在任意 timestep上对齐样本分布,从而更有效地把线性化后的模型 " 拉回 " 原模型行为。论文强调这个目标不仅能恢复性能,而且更高效(无需像传统分布匹配方法一样需要训练辅助模型),能避免一些既无效又低效的优化过程。
实验结果
LINVIDEO 在【Wan 1.3B】与【Wan 14B】上做了系统评测,采用 VBench 的 8 个维度进行综合评估,同时也报告了 VBench-2.0(带增强提示)来衡量物理规律、常识一致性等更难的能力。
对比方法覆盖了主流稀疏注意力与动态注意力方案,包括SVG、SVG2、DFA以及动态方法 XAttention;延迟测试在单卡【H100】上完成,并只使用各方法的 fast attention 实现保证公平性。

△ VBench 性能对比

△ Vbench-2.0 性能对比
论文给出的核心结论是:在同等评测下,LINVIDEO 能在尽量保持生成质量的前提下,把视频扩散模型的推理速度推到一个更实用的位置。整体上,LINVIDEO 报告了1.43 – 1.71 ×的加速,同时质量保持稳定;在进一步结合 4-step 蒸馏后,端到端延迟可达15.9 – 20.9 ×的降低,而主观视觉质量仅有轻微下降。
这意味着 LINVIDEO 不只是 " 把注意力换成线性 " 这么简单,而是提供了一套能落地的迁移与对齐方案,让视频扩散模型的大比例线性化变得可行。


△ 1.3B 模型视频生成效果:(上)wan2.1;(中)LINVIDEO 【1.71 倍加速】;(下)4 步蒸馏 LINVIDEO【20.9 倍加速】。


△ 14B 模型视频生成效果:(上)wan2.1;(中)LINVIDEO 【1.71 倍加速】;(下)4 步蒸馏 LINVIDEO【20.9 倍加速】。总结
LINVIDEO 传递的信息很明确:视频扩散模型的线性化难点,不在于 " 有没有线性注意力 ",而在于 " 怎么把模型迁移过去还能把质量训回来 "。
它用selective transfer解决 " 替换层选择 " 的敏感性,用ADM解决 " 视频场景对齐目标 " 的有效性与效率问题,从而在不重新预训练的前提下,推进了视频扩散模型从 O ( n ² ) 走向更可扩展的 O ( n ) 推理路径。
论文地址:
https://arxiv.org/pdf/2510.08318
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦