AI 绘画总 " 画不对 ",让创作者一再崩溃。
如今,腾讯混元团队开源的 PromptEnhancer 框架,为这一难题提供了解决方案。
无需修改任何预训练 T2I 模型的权重,仅通过 "思维链(CoT)提示重写" 这一简单思路,就能让 AI 绘画的文本 - 图像对齐精度大幅提升。
在抽象关系理解、数值约束等复杂场景中,准确率甚至能提升 17% 以上。
同时,为了助力研究人员进一步深入探索提示优化技术,腾讯混元团队同步开源了一个全新的高质量人类偏好基准测试数据集。
该数据集围绕复杂场景构建,包含大量标注数据,不仅为 PromptEnhancer 的训练与评估提供了有力支撑,更为相关研究领域提供了重要参考。
核心创新:两大模块破解 " 理解难题 ",实现 " 即插即用 " 优化
近年来,从 Stable Diffusion、Imagen 到 HunyuanDiT、Flux,T2I 扩散模型已能生成超写实、风格多样的图像,但它们对 " 人类指令 " 的解读能力,仍存在明显短板。
腾讯混元团队在研究中发现,T2I 模型的核心问题集中在三大领域:
属性绑定混乱:无法将 " 红色 "" 条纹 " 等属性精准匹配到 " 帽子 "" 衣服 " 等对象上;
否定指令失效:输入 " 没有葱的牛肉面 ",生成的图像里却总会出现葱;
复杂关系失控:难以理解 " 猫在狗左边,且比狗小一半 " 这类空间与比较关系,更无法渲染 " 用橘子瓣拼成的猫 " 这种抽象组合场景。
这些问题的根源,在于用户输入的简洁指令与模型需要的 " 精细化描述 " 之间存在巨大鸿沟。
此前的解决方案要么需要针对特定 T2I 模型微调,难以通用;要么依赖 CLIP 分数等粗糙评价指标,无法定位具体错误。
这就导致 AI 绘画更像 " 开盲盒 ",而非可控的创作工具。
PromptEnhancer 的突破,在于构建了一套与生成模型完全解耦的提示优化框架,核心包含 "CoT-based 重写器" 与 "AlignEvaluator 奖励模型" 两大模块,通过两阶段训练让 AI 学会 " 精准说话 "。
△图 1:PromptEnhancer 技术架构
由上图可以看出,PromptEnhancer 由两部分组成,分别是 SFT 监督训练用于激活 CoT 改写能力,基于 AlignEvaluator 的 GRPO 强化学习对齐 24 个维度。
CoT-based 重写器:像人类设计师一样拆解指令
不同于传统 " 关键词堆砌 " 式的提示优化,PromptEnhancer 的重写器引入了 " 思维链(CoT)" 机制——模拟人类设计师的思考过程,将简洁指令拆解为 " 核心元素 - 潜在歧义 - 细节补充 " 三步骤。
△图 2:穿宇航服的汤姆猫在太空漂浮
例如,用户输入 " 可爱的汤姆穿宇航服在太空漂浮,油画风格 "。
重写器会先明确 " 汤姆是《猫和老鼠》IP 角色 " 这一背景知识,再补充 " 宇航服是米白色多层设计,头盔带黄色高光 "" 太空背景用厚涂技法,星体是白色黄色点彩 " 等细节,最终生成结构化的精细化提示。
为让重写器掌握这种能力,团队首先通过 " 监督微调(SFT)" 进行初始化。
利用 Gemini-2.5-Pro 等大模型生成 48.5 万组 " 原始提示(user prompt)- 思维链(think)- 精细化提示(reprompt)" 数据,让重写器学会从 " 宏观概述 " 到 " 微观细节 " 的描述逻辑。
AlignEvaluator:24 维度 " 打分 ",精准定位错误
传统奖励模型(如 CLIP 分数)只能给出 " 整体相似度 ",无法判断 AI 错在哪。
PromptEnhancer 则构建了覆盖6 大类别、24 个关键维度的评价体系,让错误定位更精准。
这 24 个关键维度几乎涵盖了 T2I 模型的所有 " 盲区 ",例如:
语言理解:否定指令、代词指代(如 " 它是金属做的,所以砸坏了桌子 " 中的 " 它 " 是否指 " 球 ");
视觉属性:物体数量(3 只以上)、材质(冰雕 vs 石雕)、表情(轻蔑 vs 微笑);
复杂关系:包含关系(杯子里装着苏打水)、相似关系(湖的形状像吉他)、反事实场景(女孩抓着蒲公英梗悬在云端)。
AlignEvaluator 通过大规模标注数据训练,能针对每一个维度给出生成图像的 " 精准分数 "。
例如 " 牛肉面没画葱 " 在 " 否定指令 " 维度得高分," 猫的颜色错了 " 在 " 属性绑定 " 维度得低分,从而为提示优化提供明确方向。
△图 3:AlignEvaluator 评估维度两阶段训练:从 " 会写 " 到 " 写得好 "
有了基础能力与评价标准,PromptEnhancer 通过两阶段训练让重写器持续进化:
阶段 1:SFT 初始化:掌握结构化描述能力,能生成符合语法逻辑的精细化提示;
阶段 2:GRPO 强化学习:将重写器生成的 8 个候选提示输入冻结的 T2I 模型(如 Hunyuan-Image 2.1),用 AlignEvaluator 对生成图像打分。
通过 " 奖励越高的提示越受重视 " 的逻辑,让重写器逐渐学会 " 生成能让 T2I 模型读懂的提示 "。
20 个维度准确率提升,复杂场景突破明显
△图 4:在 24 个维度 benchmark 的文生图语义准确率
在 HunyuanImage 2.1 模型上的测试显示,PromptEnhancer 带来了全方位的性能提升:
整体准确率 +5.1%:在 24 个评价维度中,20 个维度实现正提升,仅 2 个维度出现轻微下降(文本布局 -0.7%、无接触交互 -0.9%);
复杂场景突破显著:在最具挑战性的 " 相似关系 "(如 " 湖像吉他 ")、" 反事实推理 "(如 " 蒲公英梗悬云端 ")、" 数量计数 "(如 "4 只狗 ")维度,准确率分别提升 17.3%、17.2%、15.0%;
风格与细节更精准:在 " 面部表情 "(如 " 轻蔑的表情 ")、" 跨对象属性绑定 "(如 " 男人短发蓝衬衫,女人长发黄衬衫 ")维度,准确率提升超 10%,油画、点彩等风格的还原度也大幅提高。
从定性效果看,原始提示生成的 " 汤姆穿宇航服 " 图像中,宇航服细节模糊、太空背景单调。
而经过 PromptEnhancer 优化后,不仅角色 IP 特征清晰,宇航服的纹理、背景的绘画技法都完全符合用户预期。
PromptEnhancer 的 " 即插即用 " 特性,在 HunyuanImage 2.1、Flux dev、Qwen-Img 等主流 T2I 模型上的图文对齐,真实感,美感均有一定提升,验证了对不同架构生成模型的适配性。
以下为典型场景的提示词经过 PromptEnhancer 改写前后的效果对比:
△图 5:Qwen-Image 生成
User Prompt:没有糖霜的草莓蛋糕,放在铺着格子餐布的木桌上,油画质感。
△图 6:Qwen-Image 生成
Reprompt:一幅油画作品描绘了一个没有糖霜的草莓蛋糕,它被放置在一张铺有格子餐布的木质桌子上。蛋糕主体为圆形,呈现出明显的厚涂油画技法,其表面布满了粗犷的 brushstrokes。蛋糕的内部是草莓色的海绵体,结构松软,层与层之间填充着粉色的果酱。蛋糕顶部装饰着几颗新鲜的红色草莓,其形态和颜色均由厚重的油画颜料表现。蛋糕下方是一块格子图案的餐布,由蓝色和白色交织的笔触构成,铺设在一张深棕色的木质桌面上,桌面的木纹 grain 也以明显的油画笔触刻画出来。整体画面呈现出强烈的油画质感,色彩饱和且厚重,笔触感强烈,是一幅典型的 Still-life painting(静物画)作品。
△图 7:FLUX Dev 生成
User Prompt:三只戴着不同颜色领结的兔子,最大的在最左边,最小的在最右边,中间的兔子抱着胡萝卜,低多边形风格。
△图 8:FLUX Dev 生成
Reprompt:一幅图像描绘了三只大小不一、戴着不同颜色领结的兔子,它们以从大到小的顺序从左至右排列在一个低多边形风格的场景中。画面最左侧是体型最大的一只兔子,它身体呈浅灰色,由清晰的多边形平面构成,脖子上戴着一个红色的多边形领结。中间位置是一只中等大小的兔子,它身体为白色,前爪紧紧抱着一个橙色的胡萝卜,胡萝卜的叶子是绿色的,同样呈现出明显的多边形结构,它的领结是蓝色的。画面最右侧是体型最小的一只兔子,它身体呈淡粉色,脖子上戴着一个黄色的领结,它静静地站立着。它们站立的地面是由多边形块状拼接而成,背景是简单的几何色块。整体画面呈现出鲜明的低多边形(Low Poly)风格。
△图 9:HunyuanImage-2.1 生成
User Prompt:手绘作业,一个方块、两个三角形和三个圆形,所有图形的轮廓都是粉色的。
△图 10:HunyuanImage-2.1 生成
Reprompt:手绘作业。多个基本几何图形排列在一个白色的纸张背景上。中央是一个正方形,其轮廓由一条明显的粉色线条勾勒而成,线条粗细不均,带有手绘感。在正方形的上方,摆放着两个三角形,它们的轮廓同样为粉色。在这些图形的周围,散落着三个圆形,它们的边界也是粉色的线条。所有图形的内部均为白色,与粉色的轮廓形成对比。背景是白色的画纸,上面有一些轻微的褶皱或污渍,增加了手绘的真实感。儿童手绘或概念草图的风格。
这些跨模型测试表明,PromptEnhancer 无需针对特定 T2I 模型做定制化修改,仅通过 " 提示重写 +AlignEvaluator 反馈 " 的通用逻辑,就能提升不同架构的生成模型的复杂指令理解能力。
这意味着产业界可低成本将该技术嫁接至现有工作流,快速提升 AI 绘画的可控性与创作效率。
为了推动提示优化技术的可解释性与可复现性研究,腾讯混元团队同步开源了包含 6000 条 Prompt 及对应多个维度精细标注的高质量基准测试集。
这套数据集不仅覆盖 " 属性绑定 "" 复杂关系 "" 否定指令 " 等 T2I 模型核心痛点场景,更通过多维度统计分析,为研究人员揭示 AI 绘画指令理解的深层规律。
数据集概览:6k Prompt 覆盖复杂创作场景
该基准测试集的 6000 条 Prompt,围绕 " 人类意图精准表达 " 核心目标构建,涵盖三类复杂场景:
日常创作延伸:如 " 穿条纹围裙的厨师在大理石台面上切红苹果,chiaroscuro 明暗对比风格 ";
抽象关系挑战:如 " 用云朵形状组成的鲸鱼在紫色天空游动,像素艺术风格 ";
反事实与推理场景:如 " 如果猫长着大象的耳朵,它会如何趴在樱花树上,浮世绘风格 "。
每条 Prompt 均配备 AlignEvaluator 所需的 24 维度标注,确保对 " 人类意图 " 的精准捕捉。
Prompt 长度分布:指令复杂度的直观映射
△图 11:Prompt 的字符长度分布
长度集中于 80-120 字符区间,峰值约在 100 字符处,体现数据集以 " 中等复杂度指令 " 为核心 —— 既覆盖日常简短指令的延伸,又能挑战模型对长指令中多元素关系的理解。
120 字符以上的 " 长尾区间 " 仍有较高频率,代表 " 极复杂指令 "(多对象、多属性、多关系组合指令)的存在,为模型极限能力测试提供素材。
这种分布与真实创作场景高度契合:创作者既会用简洁指令表达核心想法,也会在专业创作中补充大量细节。
关键维度共现:指令复杂度的 " 组合密码 "
△图 12:Top 24 维度共现热力图
颜色越深(数值越高),代表两个维度在同一条 Prompt 中共同出现的频率越高。例如,"Style(风格)" 与 "Action-Contact Interaction Between Entities(实体接触交互)" 共现频率达 676 次,说明 " 带风格的动态交互场景 " 是创作者高频需求。
"Attribute-Expression(属性 - 表情)" 与 "Action-Character/Anthropomorphic Full Body Movement(角色全身动作)" 共现 332 次,反映 " 角色动作 + 表情细节 " 的组合需求普遍存在。
小众但关键的维度组合也被呈现,如 "Logical Reasoning(逻辑推理)" 与 "Relationship-Comparative(比较关系)" 共现,对应 " 猫比狗小一半所以跳得更高 " 这类需逻辑链条的指令。
未来与展望
PromptEnhancer 的意义,不仅在于提升了单模型的生成精度,更从技术与生态层面为 AI 绘画领域带来三大突破:
通用性:无需修改 T2I 模型权重,可作为 " 即插即用 " 模块适配混元、Stable Diffusion、Imagen 等任意预训练模型,降低优化成本;
可解释性:通过 CoT 思维链与 24 维度评价,让 " 提示优化 " 不再是黑箱,开发者可清晰定位模型的理解盲区;
生态补全:团队同步发布了高质量人类偏好基准,包含大量针对复杂场景的标注数据,为后续提示优化研究提供了重要参考。
随着 AI 绘画从 " 娱乐工具 " 向 " 工业设计、广告创作 " 等专业领域渗透," 精准理解人类意图 " 将成为核心竞争力。
PromptEnhancer 通过 " 优化指令而非修改模型 " 的思路,为这一方向提供了可落地的技术路径。
未来,创作者或许只需输入简单想法,AI 就能自动补全专业细节,让 " 所想即所得 " 的创作成为现实。
项目主页:https://hunyuan-promptenhancer.github.io
Github:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
PromptEnhancer-7B: https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦