想象一下,如果让一个大厨用发霉的食材、过期的调料来做菜,即使厨艺再高超,也做不出美味佳肴。AI 训练也是同样的道理。
一、数据就像食材,质量决定成品
现在的 AI 图像生成模型,如 Stable Diffusion、FLUX 等,需要从网络上爬取数百万张图片来学习。但这些图片质量参差不齐:有些模糊不清,有些内容重复,有些甚至只是广告背景图。用这些 " 食材 " 训练出来的 AI,自然效果不佳。
由香港大学丁凯欣领导,联合华南理工大学周洋以及快手科技 Kling 团队共同完成的这项研究,开发出了一个名为 " 炼金师 "(Alchemist)的 AI 系统。它就像一位挑剔的大厨,能从海量图片数据中精准挑选出最有价值的一半。
更让人惊喜的是:
用这一半精选数据训练出的模型,竟然比用全部数据训练的表现还要好
训练速度快了5 倍
只用 20% 的精选数据,就能达到 50% 随机数据的效果
二、让 AI 学会 " 自我评判 "

2.1 传统方法的局限
传统的数据筛选方法就像用筛子筛米粒,只能按照单一标准过滤:
只看图片清晰度
只看文字匹配度
只看美学评分
这些方法的问题在于:它们不知道哪些数据真正有助于 AI 学习。
2.2 炼金师的智慧
" 炼金师 " 更像是一位经验丰富的美食评委,它能同时考虑多个维度:
不仅看 " 菜品 " 的卖相
还要品尝口感
甚至考虑营养搭配
核心思想:让 AI 学会观察自己的学习过程
炼金师训练了一个专门的评分员模型,这个评分员就像资深的艺术老师,能够判断每张图片对整个学习过程的价值。
评判标准:
✅如果一张图片能让 AI 模型学到新知识并快速改进→好数据
❌如果一张图片让模型学了半天也没什么进步→无用数据
这就像观察学生做习题时的表情和进步速度,来判断这道题是否适合他们。
三、最简单的不一定最好 3.1 意外的真相
研究团队发现了一个违反直觉的现象:
那些看起来最 " 简单 " 的图片,比如纯白背景的产品图:
虽然能让 AI 快速收敛
但对提升模型能力帮助不大
就像一直做最简单的加法题,虽然不会出错,但对提升数学能力没有帮助
相反,内容丰富、稍有挑战性的图片,才是真正的 " 营养品 "
3.2 科学验证
研究团队追踪了不同评分区间图片的训练动态:
评分区间 | 训练损失 | 梯度变化 | 学习价值 |
最高分(0-20%) | 很低 | 很小 | ❌学不到新东西 |
中等分(30-80%) | 适中 | 活跃 | ✅积极学习中 |
最低分(80-100%) | 很高 | 几乎不下降 | ❌过于混乱困难 |

四、技术亮点:偏移高斯采样策略
基于上述发现,团队提出了 " 偏移高斯采样 "(Shift-Gsample)策略。
4.1 传统方法 vs 炼金师
传统 Top-K 方法:
简单选择评分最高的数据
❌但这些数据往往过于简单,缺乏营养
炼金师策略:
✅避开评分过高的 " 简单 " 数据
✅重点选择中等偏上评分的 " 有营养 " 数据
✅保留少量简单和困难样本,维持数据多样性
这就像制定健身计划:
❌不选择过于轻松的运动(没有锻炼效果)
❌不选择过于困难的运动(容易受伤)
4.2 多粒度感知机制
为了更好地评估数据质量,炼金师还设计了" 多粒度感知 "机制:
个体层面:评估单张图片的质量
群体层面:考虑整批数据的搭配
就像营养师不仅关注单个食材的营养价值,还要考虑整餐的营养搭配。
五、实验结果:数据说话 5.1 主要成果对比
在 LAION-30M 数据集上:
方法 | 数据量 | 训练时间 | FID ↓ | CLIP Score ↑ |
全部数据 | 30M | 65.34 小时 | 17.48 | 0.2336 |
随机选择 | 15M | 34.60 小时 | 19.70 | 0.2220 |
炼金师 | 15M | 34.60 小时 | 16.20✅ | 0.2325✅ |
炼金师 - 小 | 6M | 13.08 小时 | 18.22 | 0.2277 |
关键发现:
用 50% 精选数据超越 100% 全量数据
用 20% 精选数据达到 50% 随机数据效果
训练速度提升5 倍
5.2 跨模型通用性
炼金师在不同规模、不同架构的模型上都有效:

5.3 跨数据集适应性
在不同类型数据集上的表现:

HPDv3-2M 数据集(真实 + 合成混合):
20% 保留率:FID 从 35.55 →32.27✅
50% 保留率:FID 从 20.21 →18.15✅
Flux-reason-6M 数据集(纯合成推理数据):
20% 保留率:FID 从 23.66 →22.78✅
50% 保留率:FID 从 19.35 →18.59✅
六、可视化分析:眼见为实 6.1 数据分布特征
研究团队对筛选后的数据进行了可视化分析:

0-20% 高分区域(简单但营养不足):
白色或纯色背景
简洁的产品图
视觉干净但信息量有限
30-80% 中分区域(最有价值的 " 金中间 "):
内容丰富
主题明确
动作清晰
炼金师重点选择区域⭐
80-100% 低分区域(过于混乱):
噪声图片
多对象混乱场景
视觉密集区域
内容不清晰
6.2 训练动态对比
训练稳定性对比:
炼金师选择的数据展现出:
✅稳定持续的性能提升
✅更快的收敛速度
✅更少的训练波动
随机选择的数据则表现出:
❌早期训练波动大
❌性能提升缓慢
❌需要更多 epochs 才能收敛

七、技术深度:元梯度优化框架 7.1 双层优化问题
炼金师的核心是一个双层优化框架
外层优化:学习如何评分
目标:找到最优的评分策略
评判标准:验证集上的性能
内层优化:训练代理模型
目标:用加权数据训练模型
权重由评分器决定
7.2 元梯度更新机制
系统通过观察两个模型的表现差异来更新评分:
评分更新∝代理模型的验证集损失
核心思想:
如果一个样本让验证性能提升→提高其评分
如果一个样本只降低训练损失但不提升验证性能→降低其评分
八、Q&A 环节 Q1:炼金师如何判断哪些图片数据更有价值 ?
A:炼金师通过观察 AI 模型在学习过程中的 " 反应 " 来判断数据价值:
✅好数据:能让模型学到新知识并快速改进
❌差数据:让模型学了半天也没进步
这就像观察学生做题时的表情和进步速度,来判断题目是否合适。
技术细节:
监控训练损失变化
追踪梯度动态
对比验证集性能提升
Q2: 为什么用一半数据训练出的模型比用全部数据还要好 ?
A:因为并非所有数据都有价值,关键在于质量而非数量。
类比说明:
教孩子画画时,精选 5000 张优质作品
比给他看 10000 张杂乱涂鸦更有效
科学原理:
1. 冗余数据消耗资源但不提升性能:如重复的简单样本、模糊不清的噪声图片
2. 有营养的数据促进真实学习:如内容丰富的中等难度样本、多样化的场景和对象
3. 避免过拟合:若只用简单数据会导致模型 " 死记硬背 ",还应使用适当难度的数据培养泛化能力
Q3: 炼金师的数据筛选方法能在其他 AI 模型上使用吗 ?
A:可以!研究显示这种方法具有良好的通用性和跨模型适用性。
验证范围:
✅不同数据类型:
网络爬取数据(LAION)
高质量合成数据(Flux-reason)
人类偏好标注数据(HPDv3)
✅不同模型架构:
STAR 系列(40M → 0.9B 参数)
FLUX 系列(3B 参数)
从头训练 vs LoRA 微调
✅不同模型规模:
用小模型(0.3B)筛选数据
成功提升大模型(0.9B)性能
评分成本可忽略不计
原理:
数据质量是本质属性,不依赖特定模型
就像好食材适合各种烹饪方法
经验丰富的教练选择的训练方法,既适合业余选手也适合专业选手
Project Page:https://kxding.github.io/project/Alchemist/
Github:https://github.com/KlingTeam/Alchemist/
arXiv:https://arxiv.org/abs/2512.16905
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦