MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax 海螺视频团队不藏了！

首次开源就揭晓了一个困扰行业已久的问题的答案——

为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？

翻译成大白话就是，虽然图像 / 视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。

So why？问题，大概率就出在视觉分词器（Tokenizer）这个东西身上了。

当算力不再是答案时，真正需要被重新审视的，其实是生成模型的 " 起点 "。

在当前主流的两阶段生成框架中（分词器 + 生成模型），业界已经在视觉分词器的预训练上投入了大量算力与数据，但一个尴尬的事实是：

这些成本，几乎没有线性地转化为生成质量的提升。

而 MiniMax 海螺视频团队，不止挑战了这一现实——用实验证明 "Tokenizer 的 scaling 能够提升模型性能 "。

更关键的是，还带来了一款开箱即用、专为 " 下一代生成模型 " 打造的可扩展视觉分词器预训练框架—— Visual Tokenizer Pre-training（以下简称 VTP）。

只需换上这个视觉分词器，即可在不改变下游主模型（如 DiT）任何训练配置的情况下，实现端到端生成性能的倍数级提升。

下面详细来看——

传统 Tokenizer 的缺陷：更好的重建≠更好的生成

要理解 VTP 存在的意义，首先我们需要回到更基础的问题上——

Tokenizer 是什么？它又为何如此关键？

以 AI 生图为例，当前主流的生图模型几乎清一色采用了 " 两阶段 " 生成框架：

第一阶段（压缩）：使用视觉 Tokenizer（如 VAE）这个组件，将原始图像压缩并映射到一个潜在空间（latent space）中；

第二阶段（还原生成）：再由以扩散模型为核心的生成器（如 DiT），在这个潜在空间中学习分布，并逐步还原、生成最终图像。

用一张图来形容这个过程 be like（先压缩后还原）：

而 Tokenizer，就是在第一阶段中负责压缩图片信息的组件。

如果没有这个组件，扩散模型就得直接在数百万像素组成的原始像素空间中进行 " 去噪 " 和生成——其计算复杂度和内存开销将是天文数字。

因此，Tokenizer 称得上是让模型能够在消费级显卡上运行起来的 " 关键功臣 "。

除此之外，Tokenize 过程所得的低维潜在表征，其质量直接决定了最终生成图像的语义保真度、细节丰富度以及整体真实性，所以业界也普遍认为——

从某种程度上来说，Tokenize 几乎决定了后续生成模型的上限。

基于此，人们在研究如何提升下游生成模型的质量时，也不约而同地将重点放在了" 如何精准复刻原始像素 "上，即要求模型将压缩后的潜在特征（latent）尽可能精准地还原为原始图像。

而问题，也正出在这里。

传统 Tokenizer 在追求 " 像素级重建 " 时，往往会过度沉迷于捕捉图像的局部纹理、噪点等低层信息，从而忽视了生成任务真正依赖的高层语义与整体结构。

这就像学渣为了应付考试，只想着死记硬背各种试题，却完全不理解题目背后的知识点与逻辑结构。结果真正到了需要举一反三、解决新问题的时候，一下就傻眼了。

在论文中，海螺视频团队将这一现象定义为 " 预训练缩放问题 "（Pre-training Scaling Problem）：

更好的像素级重建精度并不能带来更高质量的生成效果。

如图所示，传统仅基于 " 重建 " 目标训练的 Tokenizer（灰线），随着算力投入增加，模型的生成性能不仅没有提升，反而逐渐趋于饱和甚至略微下降。（ps：gFID 衡量生成质量，越小越好）

由此，论文得出第一个关键发现：重建做得越好，生成反而可能越差。换言之，传统 VAE 所依赖的纯重建训练范式，在面向生成任务时存在根本性局限。

那么，VTP 是如何破局的呢？

VTP 破局之道：从像素级重建到强调 " 理解力 " 的重要性

事实上，VTP 并非横空出世，而是海螺视频团队在长期实践中反复试错与认知迭代的产物。

一些早期探索：从易学性到通用表征学习

在早期工作 VA-VAE 中，团队注意到：

有些 " 压缩后的特征 " 能让后续的扩散模型学得又快又好，而另一些则不能。

基于此，他们提出了 " 易学性 " 这一概念——即不同的潜在表征（latents）对于下游生成模型的学习难度截然不同，并期望通过优化 latent 的某些 " 友好特性 "（如均匀性、频域分布等）来间接改善生成效果。

然而实践发现，这些方法虽有一定效果，却未触及本质。按团队自己的话来说就是：

尝试将易学性等价为可精确计算的单一指标（例如频域分布、均匀性、scale 不变性、低秩效应等等）有些过于理想了，这些指标可能和易学性有一定关联，但远不是全部。

就是说，当优化目标被限制在少数可测量指标上时，模型往往只是学会了在特定指标上 " 刷分 "，而没有从根本上学会理解图像的结构与语义（本质上仍未脱离 " 重建 " 范畴）。

△在 VA-VAE 中，团队曾尝试将易学性对应到 latent 分布的 " 均匀性 "

而经过持续反思，团队逐渐意识到 VA-VAE 和后来的很多尝试，其深层目标并非仅仅是优化几个指标，而是在试图让 latents 具备某些更高级的 " 结构 "。其背后逻辑在于：

假如某种 latents 对于图像中的实体、位置关系具有高度结构化的表达，那么这种结构化表达对于下游 diffusion 建模来说也会更简洁、更容易，这些方面的生成效果也自然会更好。

这就好比另一种层面上的 " 大道至简 " ——当模型真正掌握了物体、关系与语义这些视觉世界的本质规律时，它能应对的任务自然也就越多了（以不变应万变）。

因此，与其为 " 易学性 " 设计脆弱的代理指标，不如直接让 Tokenizer 去学习人类视觉系统本身所依赖的那种高度结构化、语义化的通用表征。

毕竟像 CLIP、DINOv2 这样的现代通用表征学习方法，正是在大规模数据上自动化地学习了这种 " 人类对齐 " 的视觉表达，才在多种下游任务中表现出强大的泛化能力。

至此，团队的研究重心正式从 " 像素级重建 " 转向了强调理解力的 " 通用表征学习 "。

VTP：回归 " 压缩即智能 " 本质

基于这一认知转变，VTP 的设计原则变得异常清晰。团队表示：

我们应该融合所有已知有效的表征学习方法来构建一个 Tokenizer。

具体而言，VTP 这次率先实现了从只练 " 重建 " 到 " 理解、重建、生成 " 的联合优化。

一是通过图文对比学习，建立高层语义理解。

在训练时，团队会给模型看大量图像 - 文本配对数据（如 " 一只猫在沙发上 " 与对应图片），然后要求图片的特征向量和文字的特征向量尽可能接近。

这和之前的 CLIP 思路一脉相承，但目标更聚焦。CLIP 追求的是广义的图文匹配能力，而 VTP 则要求 Tokenizer 在压缩图像为紧凑的潜在编码时，必须保留与文本对齐的语义结构。

这意味着，生成模型后续接收到的每一个潜在表示，本身就已经是 " 有语义的 " ——它不只是一堆像素的压缩，而是携带了 " 猫 "、" 沙发 " 等概念及其关系的结构化表达。和以往相比，" 语义注入 " 被提前到了压缩阶段。

二是通过自监督学习，掌握空间结构与视觉常识。

在 VTP 框架中，自监督学习模块通过结合掩码图像建模（MIM）和自蒸馏（DINO 风格），" 迫使 " 模型去理解图片的空间关系和物体结构。

这个过程会 " 逼着 "Tokenizer 来回答不同问题：

通过自蒸馏回答：抛开具体的像素细节，这张图片最核心的视觉主题或概念是什么？（全局语义）

通过 MIM 回答：根据你看到的 " 冰山一角 "，你能推断出整个 " 冰山 " 的形状和结构吗？（结构推理）

二者协同回答：为了识别图片主题或从局部重建整体，哪些视觉线索是决定性、不可缺失的？（聚焦核心）

这一套流程走下来，模型对图像的理解便不再停留在像素层面，而是构建起了结构化的视觉认知。

三是通过重建，保留必要的底层视觉细节。

VTP 依然保留了重建目标，但它的定位发生了变化——其作用不再是 " 越准越好 "，而是确保潜在空间中仍然保有生成所需的纹理、颜色与边缘等细节信息。

这三重目标并非孤立进行，而是通过一个统一的多任务损失函数进行联合优化：

最终，VTP 得到的不是一个在某个指标上 " 特别优秀 " 的压缩器，而是一个自带理解能力、对生成模型非常友好的视觉 Tokenizer。

这里也补充一个细节：为什么他们不像很多工作一样直接使用现有的 CLIP 或 DINOv2 作为 Tokenizer，而非要投入巨大算力从头预训练一个？

其核心思考在于两点（团队原话如下）：

表征真的很重要，我们想要做到很极致。在我们的视角下表征包含了自监督、对比学习、甚至是重建（这些只是已知比较成熟的方法，实际上理想的表征远不止这些），市面上没有一个能够很好地融汇这些方法的模型，我们需要自己训练一个。

基于表征的 Tokenizer 方案具备 scaling 的潜力，预训练是最合理的实现方式。如果直接利用已有模型蒸馏或者迁移，会因为 setting 过于复杂而破坏 scaling 的性质，也会受限于已有的模型规格而无法做充分的论证。

所以，选择 " 从头开始 " 的 VTP，其实际表现究竟如何呢？

首次展示了 Tokenizer 的 Scaling Law

概括而言，团队通过 VTP 得出了两大关键发现：

理解力是驱动生成的关键因素

视觉 Tokenizer 也具备明确的 Scaling Law

先说第一点。

VTP 用实验证明，如果只做重建的话，投入资源越多生成反而可能越差。

下图中，代表重建能力的 rFID 从 2.0 降至 0.5，重建效果变好；但代表生成能力的 gFID 从 55.04 升至 58.56，生成效果变差。

而一旦注入 " 理解力 "（即引入 CLIP 图文对比 /SSL 自监督任务），模型的生成质量（gFID）会随着理解能力（Linear Probe）的提升而同步变好——

二者呈现明显的正相关，且这种提升会随着训练计算量增加持续推进。相比之下，缺少 " 理解力 " 的传统 AE Only 方案，其生成质量和理解能力很快陷入停滞。

更进一步，团队在同等算力下对比了不同组合，证明 "CLIP+SSL+AE" 的联合训练方式上限最高，生成与理解指标均最优。

基于此，团队训练的 VTP 在理解、重建、生成方面均交出了不错的答卷——

在 ImageNet 上的零样本分类准确率达到78.2%，超过了原版 CLIP 的 75.5%，已经具备强通用视觉理解能力；在重建能力上超过了 Stable Diffusion 的 VAE， rFID 低至0.36；在生成能力上超过了此前的改进方法 VA-VAE，gFID 低至2.81。

更关键的是，在达到相同生成质量的前提下，VTP 的训练收敛速度比 LDM 快 5.7 倍、比 VA-VAE 快 4.1 倍，大幅降低了训练成本。

这一系列表现共同印证了团队的判断：Tokenizer 的 " 语义理解力 " 而非单纯的像素重建精度，才是驱动生成性能与效率提升的核心动力。

再说第二点，也是更具突破性的一点。

团队在实验中发现，VTP 首次展示了 Tokenizer 的 Scaling Law，即生成性能可以随预训练中投入的计算量、参数量和数据规模有效增长。

仅从算力维度对比，在不改动下游 DiT 标准训练配置的前提下，单纯将 Tokenizer 的预训练计算量放大，VTP 就能为最终生成效果带来65.8% 的性能提升，且提升曲线仍未触顶。

反观传统自编码器（AE），其性能在仅投入约 1/10计算量时便已饱和，且继续增加算力不仅收益微乎其微，甚至可能导致生成质量倒退。

以上发现表明，接下来除了在主模型上投入更多参数 / 算力 / 数据之外，还可以通过 Tokenizer 的 scaling 来提升整个生成系统的性能。

这个结论，乍一看可能会让人有点转不过弯：什么时候，Tokenizer 也开始谈 scaling 了？

在大模型语境里，"Scaling Law" 几乎天然只属于主模型——参数更大、数据更多、算力更猛，性能就该继续往上走。至于 Tokenizer，则长期被视作一个 " 前置模块 "，主打一个够用就行，做完重建任务就退场。

但 VTP 的出现却改变了这一现实，团队表示：

VTP 在 latents 易学性和通用表征学习之间建立起了明确关联，从而第一次将 Tokenizer 作为 scaling 的主角，展现出全面的 scaling 曲线和扩展方向。

就是说，如果 Tokenizer 只是被用来精准复刻像素，那么无论怎么堆算力，提升都将很快见顶；而一旦 Tokenizer 学到的是具备语义结构、对下游更友好的通用表征，事情就完全不一样了。

比如对整个行业来说，由于 VTP在 Tokenizer 层面就已经统一了语义对齐、结构认知和细节表达，因此其产出的视觉表征天然具备多任务协同的潜力。

这有点像先把世界翻译成了一种统一、结构化的 " 视觉语言 "。

一旦这套语言确定下来，下游无论是理解任务（如分类、检测），还是生成任务（如图像合成、编辑），都不再需要各自 " 重新学怎么描述这个世界 "，而只是站在同一套底层表达之上，做不同的事情。

从这个角度看，VTP 天然适合用来构建 " 理解 - 生成统一模型 "。正如团队所言：

Tokenizer 层面的统一，是更本质的统一。

也因此，此次 VTP 的开源就不单单只是提供了一个组件那么简单了。

其更大的价值或许在于，它为整个行业提供了一条新的、且被实验证明行之有效的路径——

在主模型之外，Tokenizer 同样是一个值得长期投入、且具备明确 scaling 回报的核心环节。

目前，VTP 的论文和模型权重已经公开，动手能力强的朋友也可以尝试体验下：

换一个视觉 Tokenizer，模型性能就能变得不一样的 feeling（手动狗头）。

【传送门】

代码：https://github.com/MiniMax-AI/VTP

论文：https://arxiv.org/abs/2512.13687v1

模型：https://huggingface.co/collections/MiniMaxAI/vtp

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签