OpenAI参与，重卷ImageNet：终于把FID做成训练

统治 AI 图像生成近 10 年的黄金标准，第一次被拉下场当了教练。

我说的是FID（Frechet Inception Distance）。

这个指标从 2017 年沿用至今，一直无法无法投入日常训练使用。

现在有人打破了这个窘境——

来自 USC、CMU、CUHK 和 OpenAI 的全华阵容研究团队，提出了一种叫 FD-loss 的方法，把 " 算统计的样本池 " 和 " 算梯度的 batch" 彻底解耦。

依靠数万张图像组成的大容量缓存队列或指数移动平均机制，稳定完成分布估算，仅针对当下小批量数据开展梯度回传。

仅凭这一个 idea，长期受限的 FID 终于能够作为训练损失函数，参与模型的直接优化。

实验带来了多项出人意料的结果：

一个已有的单步生成器，后训练后直接刷出 FID 0.72（ImageNet 256 × 256），而且推理成本零增加。

一个训练了 50 步的多步扩散模型，被他们直接 repurposing 成 1 步生成器，无需教师蒸馏、无需对抗训练，效果还能打。

其中最违背固有认知的发现在于，FID 数值最优的模型，视觉观感未必出众。依托 DINOv2、MAE、SigLIP 等前沿视觉表征训练的模型，FID 表现不如基于 Inception 架构优化的版本，但画面物体结构完整性与细节还原度都会明显更好。

业内长期扎堆优化 FID 分数，可这项沿用近十年的评价标准早已达到性能瓶颈，甚至会引导模型走入错误的优化方向。

对 6 种表征空间的归一化弗雷歇特距离（Fr é chet Distance，FD）比值取平均，得到更鲁棒的综合指标 FDrk。

按照这套新标准测算，真实验证集基准数值为 1.0，现阶段顶尖生成模型的数值依旧高达 1.89。

这足以说明 ImageNet 图像生成领域，距离技术成熟还有很远的距离。

解耦统计量与梯度计算

FID 是所有生成模型性能测评的核心评判标准。

这个歌值越小，意味着生成图越真实、分布越接近真实。

它的计算方式是把真实图和生成图用 Inception-v3 提特征，各算一个高斯分布，再求两个分布之间的距离。

不过过去，FID 只能当评测指标。

因为测算一次 FID 需要 50000 张图片的统计数据，而 GPU 每步训练能塞下的 batch 撑死也就 1024 张。

如果强行把 5 万样本全部参与反向传播，显存多半当场爆炸。

新研究的破局思路是 " 彻底解耦 "。

简单来说，研究团队用数万张图组成的大窗口（队列或 EMA）稳定估算真实与生成分布的均值、协方差，保证 FD 计算准确；梯度只回传当前小批量数据，不增加训练算力负担。

研究者设计了两种工程实现。

第一种叫队列法（Queue）。

这种方法维护一个超大特征队列（比如 5 万条），每次生成新 batch 就 enqueue，同时把最老的 batch 踢出去。

算 FD 时，用整个队列的均值和协方差；反向传播时，只给当前这 1024 条特征开梯度流，历史特征不参与梯度回传，保证统计稳健性的同时不增加训练开销。

第二种叫 EMA 法。

这种方法干脆不存储任何特征数据，仅通过指数移动平均实时更新生成样本特征的一阶矩与二阶矩，每一步使用当前批次的统计量平滑更新全局均值与协方差估计，梯度同样只作用于当前批次。

这种方式无需占用大量显存，统计结果更平滑稳定，还能轻松适配多表征空间联合优化，在实验中表现更优，也成为论文默认的实现方案。

为了验证这套解耦机制是否真的有效，研究者在最小的 pMF-B/16（118M）上做了两组消融实验。

（注：论文在实验中使用了明确的模型规模分级，其中 B 代表 Base 小模型，参数规模约 89M 到 131M。）

第一组对比队列长度。

不用队列（N=0）时，FID 反而从 3.31 劣化到 3.84。

队列加到 5 万时，FID 骤降至 0.89；但狂堆到 50 万后，因历史特征严重 stale，FDr6 直接崩回 17.67。

第二组对比 EMA 衰减率。

β =0.999 时，FID 刷到 0.81，比队列版更优，且显著好于过短的 0.9（0.98）和过长的 0.9999（0.98）。

因此后续所有实验——无论 pixel/latent 空间、多步转单步、还是 2.5B 参数的文本模型——均默认采用 EMA 方案。

三个 " 反常识 " 的实验发现

新提出的 FD-loss 本质上是一个后训练的分布对齐目标。

研究者从已经训练好的生成器出发，只用 FD-loss 做轻量微调。

真实图像只在离线阶段出现一次——预先把训练集的均值和协方差算好存盘，之后模型再也不见真图，只对着自己生成的样本做自我修正。

这意味着它不需要修改原有架构，不需要从头训练，也不需要教师蒸馏或对抗学习，像插件一样直接嵌入现有流程。

而且无论像素空间还是隐空间、单步还是多步模型，都能即插即用。

有了这个轻量框架，研究团队才得以系统性地测试当 FID 真的变成损失函数，生成模型会发生什么。

FD-loss 带来了三个重要的实验发现。

发现一，FD-loss 让单步生成模型首次实现画质与速度的新高度。

研究者拿了一个已经训练好的单步生成器 pMF-H，直接上 FD-loss 微调 100 轮。

结果在 ImageNet 256 × 256 上，FID 从 2.29 干到了 0.77，同时依然保持 1-NFE（单步生成）。

这一分数大幅超越过往多步扩散模型的最好水平，打破了 " 高质量必须多步、单步只能低画质 " 的固有枷锁。

换句话说，推理成本一分钱没多花，画质直接跃升。

同样的操作放到 latent-space 的 iMF-XL 上，FID 也从 1.82 压到 0.76。

更关键的是，这种提升不是刷分。在论文图 4 的定性对比里，后训练的鹦鹉羽毛更分明，雪豹的斑点也更清晰。

发现二，FD-loss 可以直接将成熟的多步扩散模型改造为高性能单步生成器。

研究者把原本训练来跑 50 步的多步模型 JiT-L，强行拉到单步模式，也就是直接输入纯噪声，模型只跑一次，输出就当最终图像。

结果就是 FID 直接崩到 291.59，画面糊成一锅粥。

然后，他们什么都不改，就用 FD-loss 继续微调这个的单步模式。

整个过程无需教师蒸馏，无需对抗训练，无需逐样本监督信号。

50 轮后，FID 从 291 骤降到 0.77，生成质量与原多步模型相当甚至更优，而且推理速度提升数十倍。

发现三，FID 最低的，未必是最好的。

这也是该试验最具行业反思价值的一点。

当研究者把 FD-loss 放到不同的表征空间里优化时，事情变得诡异起来（惊恐 .jpg）。

实验清晰表明，FID 最低的模型，在人眼主观评价中并非最优。

基于 Inception 特征优化的模型能获得最低 FID，却在物体结构、细节纹理、整体感知上弱于使用 DINOv2、MAE、SigLIP 等现代视觉表征训练的模型。

后者 FID 数值更高，但人眼看更锐利、物体结构更完整，视觉质量显著更优。

这说明长期被奉为金标准的 FID 可能会误导研究方向……

团队提出新标准

那么，如果 FID 已经靠不住了，我们拿什么来相信生成模型的进步？

研究团队提出跨 6 种表征空间的归一化平均指标 FDrk。

该指标通过对 Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP 共 6 种不同维度的表征空间计算归一化 FD 比值并取平均，得到综合评估结果 FDr6。

按照这一标准，真实验证集的基准值为 1.0，而当前最强生成模型的 FDr6 仍高达 1.89，直观揭示 ImageNet 生成任务远未被解决。

此外，在人类盲选偏好实验中，即便最优的 pMF-H 模型，得票率也只有 37.4%，真实图片依旧以 62.6% 的胜率占优。

值得一提的是，FD ‑ loss 具备极低的使用门槛与极强的泛化能力，可作为轻量化后训练插件直接嵌入现有训练流程，无需从零搭建模型，也不依赖复杂的训练策略与工程调优。

该方法同时兼容像素空间与隐空间生成模型，适配单步生成器与多步扩散模型，支持类别条件生成与文生图等多种任务模式。

在整个优化过程中，FD ‑ loss 无需修改原有主干网络结构，不引入复杂的架构改动和从头训练的巨大开销，依托队列或 EMA 统计更新即可稳定收敛，具备优秀的复现性与落地可行性。

凭借简洁通用的设计，它大幅降低了高质量极速生成模型的工程实现门槛，让各类生成架构都能快速获得显著的质量提升。

低成本、高回报，这正是 FD-loss 之于工业界的诱惑力所在。

团队介绍

公开信息显示，五位作者全部是华人背景。

一作 Jiawei Yang，USC 计算机系博士生，师从 Yue Wang 教授，目前的研究聚焦于以视觉为中心的多模态模型的统一生成与理解。

他硕士毕业于 UCLA，曾获 NVIDIA Graduate Fellowship。

Zhengyang Geng 本科毕业于四川大学计算金融专业，现为 CMU 计算机科学博士生，导师为 Zico Kolter。

他长期专注单步生成、动态系统与模型高效化，是 MeanFlow、pMF 等系列工作核心作者。

他的个人主页写道 " 与 Kaiming He 有紧密合作 "，两人曾连续合作多篇单步生成领域核心论文。

Xuan Ju 是香港中文大学博士生，师从徐强教授，主攻图像与视频生成、高效多模态模型。

她在 ICCV、SIGGRAP 等顶会发表多篇成果。

Yonglong Tian 博士毕业于 MIT 计算机科学专业，现为 OpenAI 研究员。

他是监督对比学习 SupContrast 等表征学习标志性工作的作者，曾任职于 Google DeepMind。

通讯作者 Yue Wang，USC 助理教授，同时兼任英伟达研究科学家。

他本科毕业于浙江大学，硕士毕业于 UCSD，博士毕业于 MIT，研究横跨 3D 视觉、生成模型与机器人。

论文 arXiv：

https://arxiv.org/abs/2604.28190

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

AI 正在从少数人的工具，变成所有人的日常。

今年5 月 20 日，我们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。

首波嘉宾阵容已公布！昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷都来了，了解详情

邀请你和我们一起，不再只是讨论 AI 的未来，而是现在就用起来。

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签