0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

如今手机拍照已成日常，后期修图是提升照片质感的关键。

但专业修图工具操作复杂，一键滤镜风格生硬，现有 AI 修图方案也存在难以端到端优化、模型庞大不适配移动端等问题。

为此，vivo BlueImage Lab 团队、浙江大学计算机科学与技术学院 AiXM 实验室、之江实验室与中国科学院大学联合发布了一项新的研究工作VeraRetouch——

面向多任务推理式的照片影调和色彩 " 修图 "，提出了一个轻量、全可微分、可移动端部署的修图框架。

通过将 0.6B 视觉语言模型作为 " 修图大脑 "，并设计全可微分的 Retouch Renderer 作为 " 修图执行器 "，VeraRetouch 能够把高层语言意图转化为低层像素级调整，在保持图像结构和细节的同时完成专业化色调与色彩优化。

让大模型真正 " 会修图 "，而不只是会说怎么修

传统自动修图方法大多像一个黑盒：输入照片，输出结果，中间缺少明确的审美分析与调整逻辑。

后来的推理式修图方法引入多模态大模型，让模型能够分析照片问题、给出修图步骤，再调用外部工具执行调整。

这条路线更接近人类修图师的工作方式，但也带来一个核心瓶颈：外部修图软件通常不可微分。模型生成的参数能否真正带来更好的像素结果，很难通过端到端训练直接优化。

VeraRetouch 的关键创新在于，它不再把专业修图工具当作外部黑盒，而是用一个全可微分的 Retouch Renderer 替代传统软件中的调色与调光操作。

这样一来，模型不仅能 " 推理出该怎么修 "，还能通过图像监督直接学习 " 怎样修才真的好看 "。

研究团队将修图空间拆解为三个相对独立的控制维度：

Lighting：曝光、阴影、高光等光照相关调整

Global Color：色温、色调、整体颜色倾向等全局色彩调整

Specific Color：针对红色、橙色、蓝色等特定颜色通道的精细调整

这种拆解方式与专业修图流程高度一致，也让模型的输出更可解释、更稳定。

△Retouch Encoder 从参考图像对中提取光照、全局色彩和特定色彩控制 latent，Retouch Renderer 再将这些控制信号映射到像素级修图结果三种任务：从 " 一键变好看 " 到 " 按你说的修 "

VeraRetouch 面向真实用户需求定义了三类修图任务。

Auto-Retouch
Style-Retouch
Param-Retouch

△VeraRetouch 支持自动修图、风格修图与参数修图三类典型工作流，让用户可以快速从 " 这张图需要怎么修 " 理解到 " 模型正在做什么 "。

第一类是 Auto-Retouch。

用户只需要输入一张照片，模型自动分析画面中的光影和色彩问题，并生成修图方案。这对应最常见的 " 一键优化 " 场景，但目标不是套滤镜，而是在保留原图内容的基础上提升整体观感。

第二类是Style-Retouch。

用户可以用自然语言描述想要的风格，比如 " 温暖秋日感 "" 冷调日系透明感 "" 暗调情绪胶片风 "。

模型会结合图像内容和文本意图，推理出具体的调色方向，并生成符合风格描述的结果。

第三类是Param-Retouch。

模型可以根据明确的参数指令进行修图，例如对比度、曝光、色温、饱和度等。

换句话说，它既能 " 自己看图修 "，也能 " 听懂你想要什么风格 "，还能 " 按参数执行 "。

数据问题怎么解决？构建百万级专业修图数据集

高质量修图模型离不开高质量数据。然而，专业修图数据非常稀缺。已有数据集规模有限，且很难覆盖真实用户复杂多样的风格需求。

为此，研究团队构建了AetherRetouch-1M+，这是一个百万级多任务专业修图数据集，覆盖 Auto-Retouch、Style-Retouch 与 Param-Retouch 三类场景。

△AetherRetouch-1M+ 覆盖自动修图、风格修图与参数修图三类任务，为多任务推理式修图提供大规模训练数据

对于自动修图，团队采用了一个很有意思的 " 反向退化 " 思路：

先从高质量照片出发，把它们视作 " 已修好 " 的结果，再基于专家修图对中的色彩与光照变化，反向生成更像原始照片的 " 未修图 " 版本。

这样可以在保留真实内容结构的同时，构造大量具有真实缺陷的训练样本。

对于风格修图，团队整理了 5030 个在线风格预设，覆盖 11 个大类和 193 个细分子类，并借助视觉语言模型为图像匹配合适风格，再生成多样化用户指令。

对于参数修图，团队围绕光照、全局色彩和特定色彩三类操作随机采样参数组合，生成可用于精确控制训练的数据。

更进一步，数据集中还加入了结构化推理过程：模型不仅学习 " 输入到输出 "，还学习为什么要这样调整，包括画面内容分析、原图问题诊断，以及对应的修图计划。

△AetherRetouch-1M+ 的数据构建流程，包括自动修图的反向退化、风格预设匹配与参数采样三条数据生成路径技术核心：小模型，也能做专业推理修图

VeraRetouch 基于 FastVLM-0.5B 构建。输入图像经过视觉编码器转成视觉 token，用户指令经过文本编码器转成 prompt token，随后多模态语言模型生成结构化推理内容。

△VeraRetouch 整体框架。输入图像与用户指令经过轻量 VLM 生成结构化推理与控制 latent，再由 Retouch Renderer 输出最终修图结果

为了让推理结果真正驱动像素调整，研究团队设计了专门的 retouch tokens，分别对应光照、全局色彩和特定色彩三个控制维度。

模型最后一层 hidden state 会被送入 MLP Retouch Adaptor，对齐到 Retouch Renderer 可理解的连续控制 latent，再由 Retouch Renderer 输出最终修图结果。

这套设计带来两个重要优势。

首先，它避免了模型推理时对外部修图软件的依赖。整个修图过程可以在模型内部完成，并支持端到端像素级训练。

其次，它比大型生成式图像编辑模型更轻量。

VeraRetouch 的总参数规模约为 0.63B，远小于 Flux.1 Kontext、Qwen-Image-2509、MonetGPT、JarvisArt 等基线方法，更接近移动端实际部署需求。

为了进一步提升审美表现，团队还提出了 DAPO-AE 后训练策略，通过格式奖励、图像相似性奖励和审美奖励，引导模型在保持指令一致性的同时生成更自然、更符合人类美学偏好的修图结果。

实验结果：质量、速度和可部署性同时提升

实验显示，VeraRetouch 在多个基准上取得了领先表现。

在 FiveK-Bench 自动修图任务上，VeraRetouch-DAPO-AE 达到 26.85 dB PSNR，相比 Flux.1 Kontext 提升 1.08 dB，同时在 SSIM、LPIPS 和多项直方图一致性指标上表现突出。

在 Aether-Bench 的风格修图任务中，VeraRetouch 在 PSNR、SSIM、LPIPS、DISTS、GMSD 和 Texture Distortion 等指标上均取得最优或领先表现，说明它不仅能跟随风格指令，也能更好地保留原图结构与纹理细节。

在参数修图任务中，VeraRetouch 的 PSNR 达到 30.18 dB，明显超过微调后的扩散模型基线，展现出对精确修图参数的强执行能力。

然而作者也在论文中提到，由于构造训练数据时采用联合高斯分布进行参数采样，模型在执行分布外参数时可能会出现一些不一致的情况。

从三个任务视频可以看到，VeraRetouch 的修图结果并不是简单改变整体滤镜强度，而是会根据任务类型分别处理画面亮度、色彩倾向、局部颜色与风格氛围。

对于自动修图，它更强调自然观感；对于风格修图，它更关注语言描述与视觉风格的一致性；对于参数修图，它则强调调整结果的可控性和可复现性。

速度方面，VeraRetouch 在 H20 GPU 上处理一张 512p 图像仅需 6.90 秒，快于 Flux.1 Kontext 的 16.78 秒和 JarvisArt 的 14.31 秒。

更重要的是，模型在消费级设备上也具备部署潜力：未经量化的版本在 MacBook Air M4 上约 7.46 秒，在 iPhone 16 Pro 上约 13.56 秒即可完成自动修图。

用户研究同样验证了这一点。38 名参与者的盲评结果显示，VeraRetouch 在视觉美感、指令一致性和纹理保持方面都获得了最高评分。

DAPO-AE 后训练也带来更明显的人类偏好提升，在对比实验中获得 61.62% 的偏好率。

当然，论文也指出，当前模型在局部修图能力上仍有提升空间。

未来若进一步引入像素级 mask 机制，VeraRetouch 有望支持更灵活的区域化编辑，例如只提亮人物面部、只调整天空色彩，或只优化背景氛围。

关于作者

vivo BlueImage Lab 是蓝图影像创新实验室，主要负责移动影像算法创新，包括图像 / 视频处理、图像 / 视频交互、图像 / 视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升 vivo 移动影像的算法能力，使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用，努力为用户提供更加丰富和便捷的影像体验。

论文链接：https://arxiv.org/pdf/2604.27375

项目主页：https://apollo-yi.github.io/VeraRetouch/

代码链接：https://github.com/OpenVeraTeam/VeraRetouch

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签