量子位 03-10
10秒视频token超5万,O(n²)跑不动?用后训练线性化框架实现1.71倍加速,推理成本大降
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

视频生成进入大规模时代,但计算成本也炸了。

10 秒视频,token 数超 5 万,自注意力复杂度 O ( n ² ) ——跑不动,根本跑不动。

换线性注意力 O ( n ) ?理想很丰满,现实是:一换就崩。

为了解决这一难题,来自香港科技大学、北航、南洋理工等单位的研究团队提出:LINVIDEO:一个无需数据、无需重新预训练的后训练框架,实现视频扩散模型的高比例线性化替换,同时保持生成质量。

  14B 模型视频生成效果:(上)wan2.1;(中)LINVIDEO 【1.71 倍加速】;(下)4 步蒸馏 LINVIDEO【20.9 倍加速】。

论文已被CVPR 接收。在 Wan 14B 上,LINVIDEO 实现1.71 × 端到端加速;结合 4-step 蒸馏后,可达到20.9 × 加速,且视频质量几乎无损。

为什么视频扩散模型 " 难线性化 "?

LINVIDEO 先回答了一个关键问题:为什么线性注意力在一些任务上可行,但在视频扩散模型上常常 " 替换就崩 "?原因并不只是 "linear attention 近似误差更大 ",而是替换过程本身很敏感:不同层的注意力对最终生成质量的作用并不均衡,某些层替换会造成明显退化,而另一些层替换影响较小;如果用手工规则或启发式策略去选替换层,很容易出现 " 替得越多越掉点 ",或者为了不掉点而不敢替换太多层,最终加速不明显。

  层敏感性 / 不同层替换影响的分析

此外简单使用 MSE 做输出对齐,会引入明显的时序抖动与闪烁问题。

  使用 MSE 做对齐的生成效果

而 few-step 蒸馏类的 distribution matching 方法,仅对最终分布对齐,忽略中间时刻分布,导致性能明显下降。更严重的是,传统方法还需要额外训练一个辅助模型来估计 score function,训练成本极高。因此,视频模型的线性化不仅是结构问题,更是优化目标问题。

LINVIDEO:数据无关的后训练线性化框架

LINVIDEO 的整体思路可以概括为:

  LINVIDEO 框架图。

先把 " 替哪几层 " 变成可学习问题,再把 " 怎么训回来 " 换成更适合视频的对齐目标。

在 " 替换层选择 " 上,LINVIDEO 不走手工挑层或经验规则,而是把 layer selection 视为一个二分类决策问题,提出selective transfer:让模型在后训练过程中自动、渐进地把一部分注意力层迁移到线性形式,尽量把性能损失压到最小。

直观理解就是:不是 " 一刀切 " 全换,而是让模型自己学会 " 哪些层可以安全线性化、哪些层要保留 ",并且逐步完成迁移,避免瞬间替换带来的分布突变。

LINVIDEO 还提出 anytime distribution matching(ADM):不是只对齐某个固定时刻,而是沿着采样轨迹,在任意 timestep上对齐样本分布,从而更有效地把线性化后的模型 " 拉回 " 原模型行为。论文强调这个目标不仅能恢复性能,而且更高效(无需像传统分布匹配方法一样需要训练辅助模型),能避免一些既无效又低效的优化过程。

实验结果

LINVIDEO 在【Wan 1.3B】与【Wan 14B】上做了系统评测,采用 VBench 的 8 个维度进行综合评估,同时也报告了 VBench-2.0(带增强提示)来衡量物理规律、常识一致性等更难的能力。

对比方法覆盖了主流稀疏注意力与动态注意力方案,包括SVG、SVG2、DFA以及动态方法 XAttention;延迟测试在单卡【H100】上完成,并只使用各方法的 fast attention 实现保证公平性。

  VBench 性能对比

  Vbench-2.0 性能对比

论文给出的核心结论是:在同等评测下,LINVIDEO 能在尽量保持生成质量的前提下,把视频扩散模型的推理速度推到一个更实用的位置。整体上,LINVIDEO 报告了1.43 – 1.71 ×的加速,同时质量保持稳定;在进一步结合 4-step 蒸馏后,端到端延迟可达15.9 – 20.9 ×的降低,而主观视觉质量仅有轻微下降。

这意味着 LINVIDEO 不只是 " 把注意力换成线性 " 这么简单,而是提供了一套能落地的迁移与对齐方案,让视频扩散模型的大比例线性化变得可行。

  1.3B 模型视频生成效果:(上)wan2.1;(中)LINVIDEO 【1.71 倍加速】;(下)4 步蒸馏 LINVIDEO【20.9 倍加速】。

  14B 模型视频生成效果:(上)wan2.1;(中)LINVIDEO 【1.71 倍加速】;(下)4 步蒸馏 LINVIDEO【20.9 倍加速】。总结

LINVIDEO 传递的信息很明确:视频扩散模型的线性化难点,不在于 " 有没有线性注意力 ",而在于 " 怎么把模型迁移过去还能把质量训回来 "。

它用selective transfer解决 " 替换层选择 " 的敏感性,用ADM解决 " 视频场景对齐目标 " 的有效性与效率问题,从而在不重新预训练的前提下,推进了视频扩散模型从 O ( n ² ) 走向更可扩展的 O ( n ) 推理路径。

论文地址:

https://arxiv.org/pdf/2510.08318

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

效果 南洋理工 cvpr 香港科技大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论