预测下一个像素还需要几年？谷歌：五年够了

既然语言可以当序列来学，那图像能不能也当序列来学？

通过将图像表示为像素序列，先前的研究表明通过下一像素预测，可以以一种简单、端到端的方式同时学习视觉识别与生成。

从概念上讲，下一像素预测非常容易扩展，因为它是无监督学习：无需任何人工标注。同时，将图像表示为像素序列，也对图像结构施加了最少的归纳偏置。

然而，尽管像素级端到端建模在早期被证明是可行的，但这一范式近年来却不再流行。

其主要原因在于出现了计算效率更高的方法，例如：使用视觉 tokenizer 进行 patch 级别学习。

尽管研究重心已经发生转移，但一个简单却极其关键的问题仍未被回答：我们距离真正大规模扩展下一像素预测，还有多远？

不可否认，相比自然语言中的下一词预测，下一像素预测要困难得多，主要有以下几点原因：

首先，像素的语义信息极低。一个句子里的词通常包含丰富含义，而一个像素只是一点颜色信息，两者差距巨大。

其次，像素之间的空间关系非常复杂，不容易用序列方式来表示。一个像素的颜色不仅受到周围邻域像素的影响，还受到图像中那些与它不相邻的物体和结构的影响。

第三，随着图像分辨率升高，下一像素预测的计算量会急剧增加。例如，要生成一张 128 × 128 的图片，一个自回归模型必须逐个预测 16,384 个像素，一步都不能少。

在这篇论文中，来自 Google DeepMind 的研究者分析了下一像素预测在图像识别与图像生成两类任务中的扩展特性（scaling properties）。

本文首先在固定的 32×32 像素分辨率下开展研究，在这一分辨率下，图像已开始呈现清晰的结构与可辨识的物体交互，因此可被视为对原生高分辨率图像的一种有意义的近似。

实验基于下一像素预测损失进行了初始 scaling 实验。如图 1 ( a ) 所示，结果表明：相较于文本 token，原始像素的学习需要显著更高（10 – 20 倍）的最优 token-parameter 比例。更具体地，要实现计算最优平衡，像素模型所需的 token-per-parameter 至少比语言模型高一个数量级（约 400 vs. 20）。

这一初步发现促使研究者进一步深入三个核心问题。第一，我们如何可靠地评估这些模型的性能，尤其是在较低分辨率下（低分辨率便于开展大量实验）？第二，基于下一像素预测损失得出的 scaling 规律，是否与更有意义的下游任务（如分类与图像补全）的 scaling 行为一致？第三，不同图像分辨率下的 scaling 趋势会如何变化？

为回答这些问题，本文围绕三类指标进行了系列可控实验。

在固定的 32×32 分辨率下，实验结果（见图 1 ( b ) ）显示：最优的 scaling 策略高度依赖目标任务，其中图像生成质量需要比分类任务或下一像素预测任务更大的 token-parameter 比例。此外，这些 scaling 动态并非静态不变；对 16×16 与 64×64 等不同分辨率的研究显示：随着分辨率提升，模型规模的增长必须显著快于数据规模的增长。

最后，鉴于训练算力正以每年四到五倍的速度增长，本文预测逐像素建模方式在未来五年内将变得可行。

论文标题：Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?

方法介绍

本文从 32×32 分辨率的图像出发，在多种 IsoFlops（等算力）配置下训练了一系列 Transformer 模型，最大计算量达到 7e19 FLOPs，并从三个不同指标对其性能进行评估：下一像素预测目标、ImageNet 分类准确率以及以 Fréchet Distance 衡量的生成质量。结果发现：

首先，最佳扩展策略强烈依赖任务类型：即使在固定的 32×32 分辨率下，分类任务与生成任务的最优 scaling 需求也完全不同，其中生成任务要达到最优效果所需的数据规模增长速度是分类任务的三到五倍。

其次，随着图像分辨率的提升，最优 scaling 策略显示模型规模必须比数据规模增长得更快。更令人意外的是，根据趋势外推，像素级模型的主要瓶颈并不是训练数据，而是计算量。

本文采用 Transformer 架构进行研究，共四种规模，参数从 2800 万到 4.49 亿不等。Transformer 架构的详细信息列在表 1 中。

本文在 JFT-300M 数据集上进行预训练，该数据集包含 3 亿张多样化图像，规模是 ImageNet ILSVRC 2012 训练集的 10 倍以上。在分辨率为 32×32 的条件下，对数据集完整遍历一遍相当于处理超过 3000 亿个像素。训练过程采用标准的 Inception 风格随机裁剪，并以 50% 概率进行水平翻转。

在评估上，本文进行了两种评估方式，即图像分类和图像补全。

实验及结果

像素是否遵循与文本相同的规律？

答案是肯定的：对原始像素预测的扩展趋势与文本类似、可预测，但效率要低得多。由于单个像素所携带的语义信息远少于语言 token，本文估计模型在学习原始像素时，需要比语言模型多 10 – 20 倍的 token-per-parameter 才能达到有效学习。

本文进一步计算了在不同训练 FLOPs 下的最优 token-per-parameter 比例，并与典型语言模型进行比较。如图 1 ( a ) 所示，即便在超过 10^21 FLOPs 的训练预算下，学习原始像素仍然需要比语言 token 多 10 – 20 倍的数据量。

这表明，即便在低分辨率 32×32 图像中，单个像素的语义信息密度仍远低于语言 token，后者本身就是一种压缩且意义集中的信息单位。例如，cat 这个词是高度压缩的符号，携带着大量抽象信息：它是一种动物，有毛，会喵叫，有胡须。而单个像素本身几乎不包含语义，因为它的颜色值可能同时对应猫、汽车或天空的一部分。

总的来说，实验结果显示，下一像素预测的最优扩展趋势的确可以通过语言模型中已成熟的 scaling 框架进行预测。

最优 scaling 是否能直接迁移到下游任务？

答案是不行，至少不是以一种简单方式。在固定的 32×32 分辨率下，由下一像素预测损失得到的最优扩展策略对图像生成来说并非最优。具体而言，要获得良好的生成质量，需要一种更加数据驱动的 scaling 方式，即数据规模的增长速度必须明显快于模型规模的增长速度。

不同任务的最优 scaling 存在显著差异。如图 1 ( b ) 所示，基于独立 IsoFlops 配置得到的最优 token-to-parameter 比例在下一像素预测损失、ImageNet 分类 top-1 准确率以及基于图像补全的 Fréchet Distance 之间存在明显差别。

随着图像分辨率提升，最优 scaling 会改变吗？

答案是会的。随着图像分辨率的提高，最优扩展策略从在 32×32 分辨率下对模型规模与数据规模的平衡，转变为在更高分辨率下明显偏向更大的模型，而非更多的数据。

图像分类 vs. 图像生成。正如图 4 ( a ) 和图 4 ( c ) 所一致展示的，在更高分辨率下训练模型能够提升下游任务表现。

对于图像分类，从 16×16 切换到 32×32 时能够带来明显提升，但在 FLOPs 超过 1e20 的情况下，从 32×32 增加到 64×64 仅带来轻微改进。这表明：对于 ImageNet 分类任务，在 32×32 之后，进一步提升分辨率的收益趋于减弱。

相比之下，对于图像生成，32×32 附近的 scaling 趋势并未饱和，将分辨率从 32×32 提升至 64×64 能带来显著改进。直观来看，分辨率提高后，单像素的信息密度下降，但像素之间的视觉结构变得更复杂、更真实。抽象语义在低分辨率即可有效捕获，而细粒度纹理则需要更高分辨率。

我们距离原始下一像素预测还有多远？

目前由于巨大的计算成本而难以实际执行，但逐像素建模在未来五年内仍是一条可行路径，并能达到具有竞争力的性能。其主要瓶颈是计算量，而不是训练数据的可获得性。本文预计在未来五年内，基于原始像素的学习将成为一条可行的发展方向。

宙世代

一起剪

相关标签