13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

在图像 / 视频生成任务中，传统的 " 下一个 token 预测 " 方法正面临严重的效率瓶颈。

怎么办？

来自浙大、上海 AI Lab 等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模（Neighboring Autoregressive Modeling, NAR）。与传统的 " 下一个 token 预测 " 不同，NAR 模型采用了 " 下一个邻域预测 " 的机制，将视觉生成过程视为一种逐步扩展的 " 外绘 " 过程。

具体来说，NAR 模型从初始 token 开始，按照与初始 token 的曼哈顿距离从小到大依次生成 token。这种生成顺序不仅保留了视觉内容的空间和时间局部性，还允许模型在生成过程中并行预测多个相邻的 token。

为了实现这一点，研究人员引入了维度导向的解码头，每个头负责在空间或时间的一个正交维度上预测下一个 token。

通过这种方式，NAR 模型能够在每一步中并行生成多个 token，从而大幅减少了生成所需的模型前向计算步骤。

下面具体来看。

从 " 下一个 token" 到 " 下一个邻域 "

在当今的 AI 领域，视觉生成任务（如图像和视频生成）正变得越来越重要。无论是生成逼真的图像，还是创造连贯的视频，AI 模型的表现都在不断提升。

然而，现有的视觉生成模型，尤其是基于自回归（Autoregressive, AR）的模型，面临着严重的效率瓶颈。

传统的自回归模型通常采用 " 下一个 token 预测 " 的范式，即按照光栅顺序逐个生成图像或视频的 token。这种方法虽然简单直观，但在生成高分辨率图像或长视频时，模型需要进行数千次甚至数万次的前向计算，导致生成速度极其缓慢。

更糟糕的是，现有的加速方法往往以牺牲生成质量为代价。

例如，一些方法尝试通过并行生成多个 token 来提高效率，但由于邻近图像 token 之间的强相关性以及上下文信息的缺失，这种方法容易导致生成质量下降。

因此，如何在保持高质量生成的同时，大幅提升生成效率，成为了视觉生成领域的一个关键挑战。

为了解决上述问题，研究人员提出了邻近自回归建模（NAR）。

正如一开头提到的，通过引入维度导向的解码头，使每个头负责在空间或时间的一个正交维度上预测下一个 token，最终让 NAR 模型能够在每一步中并行生成多个 token，从而大幅减少了生成所需的模型前向计算步骤。

值得一提的是，维度导向的解码头设计非常灵活，能够轻松扩展到更高维的视觉内容生成。

例如，在视频生成任务中，视频可以被视为三维数据（时间、行、列），NAR 模型只需增加一个时间维度的解码头，即可在时间、行、列三个正交维度上并行生成 token。

对于由 t × n × n 个 token 表示的视频，NAR 模型仅需 2n+t − 2 步即可完成生成过程，远远少于传统 " 下一个 token 预测 " 模型所需的 tn2 步。

这一显著的效率提升使得 NAR 模型在处理高分辨率视频生成任务时具有极大的优势。

13.8 倍吞吐提升

研究人员在多个视觉生成任务上对 NAR 模型进行了全面评估，实验结果令人振奋：

1、类别图像生成

在 ImageNet 256 × 256 数据集上，拥有 372M 参数的 NAR-L 取得了比拥有 1.4B 参数的 LlamaGen-XXL 更低的 FID（3.06 vs. 3.09），同时将生成步数减少了 87.8% 并带来了13.8 倍的吞吐提升 ( 195.4 images/s vs. 14.1 images/s ) 。

与 VAR-d16 模型相比，NAR-M 取得了更低的 FID 的同时（3.27 vs. 3.30），能带来 92% 的吞吐提升（248.5 images/s vs. 129.3 images/s）。

这说明与现有的自回归生成方法相比，NAR 模型在生成效率和质量上均取得了显著提升。

2、类别视频生成

在 UCF-101 数据集上，NAR 模型相比基于 " 下一个词预测 "（next-token prediction）的自回归模型在生成步骤上减少了 97.3%。

相比并行解码方法 PAR，NAR 在 FVD 更低的同时将吞吐提升了 8.6 倍。

这得益于 NAR 模型在时间维度上的并行生成能力，确保了视频帧之间的连贯性和高质量生成。

3、文本到图像生成

在 GenEval 基准测试中，NAR 模型仅使用了 0.4% 的训练数据（6M）便获得了和 Stable Diffusion v1.5 相持平的综合得分。

与参数量更大且拥有 1.4B 训练数据的 Chameleon-7B 模型相比，NAR 的综合得分更高（0.43 vs. 0.39）且将吞吐率提高了 166 倍。

这些实验结果不仅证明了 NAR 模型在生成效率上的巨大优势，还展示了其在生成质量上的卓越表现。

概括而言，NAR 模型为视觉生成任务提供了一种高效且高质量的解决方案，有望在未来的 AI 应用中发挥重要作用。

更多细节欢迎查阅原论文。

论文地址：

https://www.arxiv.org/abs/2503.10696

项目主页：

https://yuanyu0.github.io/nar/

代码地址：

https://github.com/ThisisBillhe/NAR

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

学术投稿请于工作日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签