MiniMax 海螺视频团队不藏了!
首次开源就揭晓了一个困扰行业已久的问题的答案——
为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果?

翻译成大白话就是,虽然图像 / 视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比,模型离完全真正可用总是差一段距离。
So why?问题,大概率就出在视觉分词器(Tokenizer)这个东西身上了。
当算力不再是答案时,真正需要被重新审视的,其实是生成模型的 " 起点 "。
在当前主流的两阶段生成框架中(分词器 + 生成模型),业界已经在视觉分词器的预训练上投入了大量算力与数据,但一个尴尬的事实是:
这些成本,几乎没有线性地转化为生成质量的提升。
而 MiniMax 海螺视频团队,不止挑战了这一现实——用实验证明 "Tokenizer 的 scaling 能够提升模型性能 "。
更关键的是,还带来了一款开箱即用、专为 " 下一代生成模型 " 打造的可扩展视觉分词器预训练框架—— Visual Tokenizer Pre-training(以下简称 VTP)。
只需换上这个视觉分词器,即可在不改变下游主模型(如 DiT)任何训练配置的情况下,实现端到端生成性能的倍数级提升。
下面详细来看——
传统 Tokenizer 的缺陷:更好的重建≠更好的生成
要理解 VTP 存在的意义,首先我们需要回到更基础的问题上——
Tokenizer 是什么?它又为何如此关键?
以 AI 生图为例,当前主流的生图模型几乎清一色采用了 " 两阶段 " 生成框架:
第一阶段(压缩):使用视觉 Tokenizer(如 VAE)这个组件,将原始图像压缩并映射到一个潜在空间(latent space)中;
第二阶段(还原生成):再由以扩散模型为核心的生成器(如 DiT),在这个潜在空间中学习分布,并逐步还原、生成最终图像。
用一张图来形容这个过程 be like(先压缩后还原):

而 Tokenizer,就是在第一阶段中负责压缩图片信息的组件。
如果没有这个组件,扩散模型就得直接在数百万像素组成的原始像素空间中进行 " 去噪 " 和生成——其计算复杂度和内存开销将是天文数字。
因此,Tokenizer 称得上是让模型能够在消费级显卡上运行起来的 " 关键功臣 "。
除此之外,Tokenize 过程所得的低维潜在表征,其质量直接决定了最终生成图像的语义保真度、细节丰富度以及整体真实性,所以业界也普遍认为——
从某种程度上来说,Tokenize 几乎决定了后续生成模型的上限。
基于此,人们在研究如何提升下游生成模型的质量时,也不约而同地将重点放在了" 如何精准复刻原始像素 "上,即要求模型将压缩后的潜在特征(latent)尽可能精准地还原为原始图像。

而问题,也正出在这里。
传统 Tokenizer 在追求 " 像素级重建 " 时,往往会过度沉迷于捕捉图像的局部纹理、噪点等低层信息,从而忽视了生成任务真正依赖的高层语义与整体结构。
这就像学渣为了应付考试,只想着死记硬背各种试题,却完全不理解题目背后的知识点与逻辑结构。结果真正到了需要举一反三、解决新问题的时候,一下就傻眼了。
在论文中,海螺视频团队将这一现象定义为 " 预训练缩放问题 "(Pre-training Scaling Problem):
更好的像素级重建精度并不能带来更高质量的生成效果。
如图所示,传统仅基于 " 重建 " 目标训练的 Tokenizer(灰线),随着算力投入增加,模型的生成性能不仅没有提升,反而逐渐趋于饱和甚至略微下降。(ps:gFID 衡量生成质量,越小越好)

由此,论文得出第一个关键发现:重建做得越好,生成反而可能越差。换言之,传统 VAE 所依赖的纯重建训练范式,在面向生成任务时存在根本性局限。
那么,VTP 是如何破局的呢?
VTP 破局之道:从像素级重建到强调 " 理解力 " 的重要性
事实上,VTP 并非横空出世,而是海螺视频团队在长期实践中反复试错与认知迭代的产物。
一些早期探索:从易学性到通用表征学习
在早期工作 VA-VAE 中,团队注意到:
有些 " 压缩后的特征 " 能让后续的扩散模型学得又快又好,而另一些则不能。
基于此,他们提出了 " 易学性 " 这一概念——即不同的潜在表征(latents)对于下游生成模型的学习难度截然不同,并期望通过优化 latent 的某些 " 友好特性 "(如均匀性、频域分布等)来间接改善生成效果。
然而实践发现,这些方法虽有一定效果,却未触及本质。按团队自己的话来说就是:
尝试将易学性等价为可精确计算的单一指标(例如频域分布、均匀性、scale 不变性、低秩效应等等)有些过于理想了,这些指标可能和易学性有一定关联,但远不是全部。
就是说,当优化目标被限制在少数可测量指标上时,模型往往只是学会了在特定指标上 " 刷分 ",而没有从根本上学会理解图像的结构与语义(本质上仍未脱离 " 重建 " 范畴)。
△在 VA-VAE 中,团队曾尝试将易学性对应到 latent 分布的 " 均匀性 "
而经过持续反思,团队逐渐意识到 VA-VAE 和后来的很多尝试,其深层目标并非仅仅是优化几个指标,而是在试图让 latents 具备某些更高级的 " 结构 "。其背后逻辑在于:
假如某种 latents 对于图像中的实体、位置关系具有高度结构化的表达,那么这种结构化表达对于下游 diffusion 建模来说也会更简洁、更容易,这些方面的生成效果也自然会更好。
这就好比另一种层面上的 " 大道至简 " ——当模型真正掌握了物体、关系与语义这些视觉世界的本质规律时,它能应对的任务自然也就越多了(以不变应万变)。

因此,与其为 " 易学性 " 设计脆弱的代理指标,不如直接让 Tokenizer 去学习人类视觉系统本身所依赖的那种高度结构化、语义化的通用表征。
毕竟像 CLIP、DINOv2 这样的现代通用表征学习方法,正是在大规模数据上自动化地学习了这种 " 人类对齐 " 的视觉表达,才在多种下游任务中表现出强大的泛化能力。
至此,团队的研究重心正式从 " 像素级重建 " 转向了强调理解力的 " 通用表征学习 "。
VTP:回归 " 压缩即智能 " 本质
基于这一认知转变,VTP 的设计原则变得异常清晰。团队表示:
我们应该融合所有已知有效的表征学习方法来构建一个 Tokenizer。

具体而言,VTP 这次率先实现了从只练 " 重建 " 到 " 理解、重建、生成 " 的联合优化。
一是通过图文对比学习,建立高层语义理解。
在训练时,团队会给模型看大量图像 - 文本配对数据(如 " 一只猫在沙发上 " 与对应图片),然后要求图片的特征向量和文字的特征向量尽可能接近。
这和之前的 CLIP 思路一脉相承,但目标更聚焦。CLIP 追求的是广义的图文匹配能力,而 VTP 则要求 Tokenizer 在压缩图像为紧凑的潜在编码时,必须保留与文本对齐的语义结构。
这意味着,生成模型后续接收到的每一个潜在表示,本身就已经是 " 有语义的 " ——它不只是一堆像素的压缩,而是携带了 " 猫 "、" 沙发 " 等概念及其关系的结构化表达。和以往相比," 语义注入 " 被提前到了压缩阶段。
二是通过自监督学习,掌握空间结构与视觉常识。
在 VTP 框架中,自监督学习模块通过结合掩码图像建模(MIM) 和自蒸馏(DINO 风格)," 迫使 " 模型去理解图片的空间关系和物体结构。
这个过程会 " 逼着 "Tokenizer 来回答不同问题:
通过自蒸馏回答:抛开具体的像素细节,这张图片最核心的视觉主题或概念是什么?(全局语义)
通过 MIM 回答:根据你看到的 " 冰山一角 ",你能推断出整个 " 冰山 " 的形状和结构吗?(结构推理)
二者协同回答:为了识别图片主题或从局部重建整体,哪些视觉线索是决定性、不可缺失的?(聚焦核心)
这一套流程走下来,模型对图像的理解便不再停留在像素层面,而是构建起了结构化的视觉认知。
三是通过重建,保留必要的底层视觉细节。
VTP 依然保留了重建目标,但它的定位发生了变化——其作用不再是 " 越准越好 ",而是确保潜在空间中仍然保有生成所需的纹理、颜色与边缘等细节信息。
这三重目标并非孤立进行,而是通过一个统一的多任务损失函数进行联合优化:

最终,VTP 得到的不是一个在某个指标上 " 特别优秀 " 的压缩器,而是一个自带理解能力、对生成模型非常友好的视觉 Tokenizer。
这里也补充一个细节:为什么他们不像很多工作一样直接使用现有的 CLIP 或 DINOv2 作为 Tokenizer,而非要投入巨大算力从头预训练一个?
其核心思考在于两点(团队原话如下):
表征真的很重要,我们想要做到很极致。在我们的视角下表征包含了自监督、对比学习、甚至是重建(这些只是已知比较成熟的方法,实际上理想的表征远不止这些),市面上没有一个能够很好地融汇这些方法的模型,我们需要自己训练一个。
基于表征的 Tokenizer 方案具备 scaling 的潜力,预训练是最合理的实现方式。如果直接利用已有模型蒸馏或者迁移,会因为 setting 过于复杂而破坏 scaling 的性质,也会受限于已有的模型规格而无法做充分的论证。
所以,选择 " 从头开始 " 的 VTP,其实际表现究竟如何呢?
首次展示了 Tokenizer 的 Scaling Law
概括而言,团队通过 VTP 得出了两大关键发现:
理解力是驱动生成的关键因素
视觉 Tokenizer 也具备明确的 Scaling Law
先说第一点。
VTP 用实验证明,如果只做重建的话,投入资源越多生成反而可能越差。
下图中,代表重建能力的 rFID 从 2.0 降至 0.5,重建效果变好;但代表生成能力的 gFID 从 55.04 升至 58.56,生成效果变差。

而一旦注入 " 理解力 "(即引入 CLIP 图文对比 /SSL 自监督任务),模型的生成质量(gFID)会随着理解能力(Linear Probe)的提升而同步变好——
二者呈现明显的正相关,且这种提升会随着训练计算量增加持续推进。相比之下,缺少 " 理解力 " 的传统 AE Only 方案,其生成质量和理解能力很快陷入停滞。

更进一步,团队在同等算力下对比了不同组合,证明 "CLIP+SSL+AE" 的联合训练方式上限最高,生成与理解指标均最优。

基于此,团队训练的 VTP 在理解、重建、生成方面均交出了不错的答卷——
在 ImageNet 上的零样本分类准确率达到78.2%,超过了原版 CLIP 的 75.5%,已经具备强通用视觉理解能力;在重建能力上超过了 Stable Diffusion 的 VAE, rFID 低至0.36;在生成能力上超过了此前的改进方法 VA-VAE,gFID 低至2.81。

更关键的是,在达到相同生成质量的前提下,VTP 的训练收敛速度比 LDM 快 5.7 倍、比 VA-VAE 快 4.1 倍,大幅降低了训练成本。

这一系列表现共同印证了团队的判断:Tokenizer 的 " 语义理解力 " 而非单纯的像素重建精度,才是驱动生成性能与效率提升的核心动力。
再说第二点,也是更具突破性的一点。
团队在实验中发现,VTP 首次展示了 Tokenizer 的 Scaling Law,即生成性能可以随预训练中投入的计算量、参数量和数据规模有效增长。
仅从算力维度对比,在不改动下游 DiT 标准训练配置的前提下,单纯将 Tokenizer 的预训练计算量放大,VTP 就能为最终生成效果带来65.8% 的性能提升,且提升曲线仍未触顶。
反观传统自编码器(AE),其性能在仅投入约 1/10计算量时便已饱和,且继续增加算力不仅收益微乎其微,甚至可能导致生成质量倒退。

以上发现表明,接下来除了在主模型上投入更多参数 / 算力 / 数据之外,还可以通过 Tokenizer 的 scaling 来提升整个生成系统的性能。
这个结论,乍一看可能会让人有点转不过弯:什么时候,Tokenizer 也开始谈 scaling 了?
在大模型语境里,"Scaling Law" 几乎天然只属于主模型——参数更大、数据更多、算力更猛,性能就该继续往上走。至于 Tokenizer,则长期被视作一个 " 前置模块 ",主打一个够用就行,做完重建任务就退场。
但 VTP 的出现却改变了这一现实,团队表示:
VTP 在 latents 易学性和通用表征学习之间建立起了明确关联,从而第一次将 Tokenizer 作为 scaling 的主角,展现出全面的 scaling 曲线和扩展方向。
就是说,如果 Tokenizer 只是被用来精准复刻像素,那么无论怎么堆算力,提升都将很快见顶;而一旦 Tokenizer 学到的是具备语义结构、对下游更友好的通用表征,事情就完全不一样了。

比如对整个行业来说,由于 VTP在 Tokenizer 层面就已经统一了语义对齐、结构认知和细节表达,因此其产出的视觉表征天然具备多任务协同的潜力。
这有点像先把世界翻译成了一种统一、结构化的 " 视觉语言 "。
一旦这套语言确定下来,下游无论是理解任务(如分类、检测),还是生成任务(如图像合成、编辑),都不再需要各自 " 重新学怎么描述这个世界 ",而只是站在同一套底层表达之上,做不同的事情。
从这个角度看,VTP 天然适合用来构建 " 理解 - 生成统一模型 "。正如团队所言:
Tokenizer 层面的统一,是更本质的统一。
也因此,此次 VTP 的开源就不单单只是提供了一个组件那么简单了。
其更大的价值或许在于,它为整个行业提供了一条新的、且被实验证明行之有效的路径——
在主模型之外,Tokenizer 同样是一个值得长期投入、且具备明确 scaling 回报的核心环节。
目前,VTP 的论文和模型权重已经公开,动手能力强的朋友也可以尝试体验下:
换一个视觉 Tokenizer,模型性能就能变得不一样的 feeling(手动狗头)。
【传送门】
代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1
模型:https://huggingface.co/collections/MiniMaxAI/vtp
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见



登录后才可以发布评论哦
打开小程序可以发布评论哦