量子位 11小时前
0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

如今手机拍照已成日常,后期修图是提升照片质感的关键。

但专业修图工具操作复杂,一键滤镜风格生硬,现有 AI 修图方案也存在难以端到端优化、模型庞大不适配移动端等问题。

为此,vivo BlueImage Lab 团队、浙江大学计算机科学与技术学院 AiXM 实验室、之江实验室与中国科学院大学联合发布了一项新的研究工作VeraRetouch——

面向多任务推理式的照片影调和色彩 " 修图 ",提出了一个轻量、全可微分、可移动端部署的修图框架。

通过将 0.6B 视觉语言模型作为 " 修图大脑 ",并设计全可微分的 Retouch Renderer 作为 " 修图执行器 ",VeraRetouch 能够把高层语言意图转化为低层像素级调整,在保持图像结构和细节的同时完成专业化色调与色彩优化。

让大模型真正 " 会修图 ",而不只是会说怎么修

传统自动修图方法大多像一个黑盒:输入照片,输出结果,中间缺少明确的审美分析与调整逻辑。

后来的推理式修图方法引入多模态大模型,让模型能够分析照片问题、给出修图步骤,再调用外部工具执行调整。

这条路线更接近人类修图师的工作方式,但也带来一个核心瓶颈:外部修图软件通常不可微分。模型生成的参数能否真正带来更好的像素结果,很难通过端到端训练直接优化。

VeraRetouch 的关键创新在于,它不再把专业修图工具当作外部黑盒,而是用一个全可微分的 Retouch Renderer 替代传统软件中的调色与调光操作

这样一来,模型不仅能 " 推理出该怎么修 ",还能通过图像监督直接学习 " 怎样修才真的好看 "。

研究团队将修图空间拆解为三个相对独立的控制维度:

Lighting:曝光、阴影、高光等光照相关调整

Global Color:色温、色调、整体颜色倾向等全局色彩调整

Specific Color:针对红色、橙色、蓝色等特定颜色通道的精细调整

这种拆解方式与专业修图流程高度一致,也让模型的输出更可解释、更稳定。

Retouch Encoder 从参考图像对中提取光照、全局色彩和特定色彩控制 latent,Retouch Renderer 再将这些控制信号映射到像素级修图结果三种任务:从 " 一键变好看 " 到 " 按你说的修 "

VeraRetouch 面向真实用户需求定义了三类修图任务。

Auto-Retouch

Style-Retouch

Param-Retouch

VeraRetouch 支持自动修图、风格修图与参数修图三类典型工作流,让用户可以快速从 " 这张图需要怎么修 " 理解到 " 模型正在做什么 "。

第一类是 Auto-Retouch。

用户只需要输入一张照片,模型自动分析画面中的光影和色彩问题,并生成修图方案。这对应最常见的 " 一键优化 " 场景,但目标不是套滤镜,而是在保留原图内容的基础上提升整体观感。

第二类是Style-Retouch

用户可以用自然语言描述想要的风格,比如 " 温暖秋日感 "" 冷调日系透明感 "" 暗调情绪胶片风 "。

模型会结合图像内容和文本意图,推理出具体的调色方向,并生成符合风格描述的结果。

第三类是Param-Retouch

模型可以根据明确的参数指令进行修图,例如对比度、曝光、色温、饱和度等。

换句话说,它既能 " 自己看图修 ",也能 " 听懂你想要什么风格 ",还能 " 按参数执行 "。

数据问题怎么解决?构建百万级专业修图数据集

高质量修图模型离不开高质量数据。然而,专业修图数据非常稀缺。已有数据集规模有限,且很难覆盖真实用户复杂多样的风格需求。

为此,研究团队构建了AetherRetouch-1M+,这是一个百万级多任务专业修图数据集,覆盖 Auto-Retouch、Style-Retouch 与 Param-Retouch 三类场景。

AetherRetouch-1M+ 覆盖自动修图、风格修图与参数修图三类任务,为多任务推理式修图提供大规模训练数据

对于自动修图,团队采用了一个很有意思的 " 反向退化 " 思路:

先从高质量照片出发,把它们视作 " 已修好 " 的结果,再基于专家修图对中的色彩与光照变化,反向生成更像原始照片的 " 未修图 " 版本。

这样可以在保留真实内容结构的同时,构造大量具有真实缺陷的训练样本。

对于风格修图,团队整理了 5030 个在线风格预设,覆盖 11 个大类和 193 个细分子类,并借助视觉语言模型为图像匹配合适风格,再生成多样化用户指令。

对于参数修图,团队围绕光照、全局色彩和特定色彩三类操作随机采样参数组合,生成可用于精确控制训练的数据。

更进一步,数据集中还加入了结构化推理过程:模型不仅学习 " 输入到输出 ",还学习为什么要这样调整,包括画面内容分析、原图问题诊断,以及对应的修图计划。

AetherRetouch-1M+ 的数据构建流程,包括自动修图的反向退化、风格预设匹配与参数采样三条数据生成路径技术核心:小模型,也能做专业推理修图

VeraRetouch 基于 FastVLM-0.5B 构建。输入图像经过视觉编码器转成视觉 token,用户指令经过文本编码器转成 prompt token,随后多模态语言模型生成结构化推理内容。

VeraRetouch 整体框架。输入图像与用户指令经过轻量 VLM 生成结构化推理与控制 latent,再由 Retouch Renderer 输出最终修图结果

为了让推理结果真正驱动像素调整,研究团队设计了专门的 retouch tokens,分别对应光照、全局色彩和特定色彩三个控制维度。

模型最后一层 hidden state 会被送入 MLP Retouch Adaptor,对齐到 Retouch Renderer 可理解的连续控制 latent,再由 Retouch Renderer 输出最终修图结果。

这套设计带来两个重要优势。

首先,它避免了模型推理时对外部修图软件的依赖。整个修图过程可以在模型内部完成,并支持端到端像素级训练。

其次,它比大型生成式图像编辑模型更轻量

VeraRetouch 的总参数规模约为 0.63B,远小于 Flux.1 Kontext、Qwen-Image-2509、MonetGPT、JarvisArt 等基线方法,更接近移动端实际部署需求。

为了进一步提升审美表现,团队还提出了 DAPO-AE 后训练策略,通过格式奖励、图像相似性奖励和审美奖励,引导模型在保持指令一致性的同时生成更自然、更符合人类美学偏好的修图结果。

实验结果:质量、速度和可部署性同时提升

实验显示,VeraRetouch 在多个基准上取得了领先表现。

在 FiveK-Bench 自动修图任务上,VeraRetouch-DAPO-AE 达到 26.85 dB PSNR,相比 Flux.1 Kontext 提升 1.08 dB,同时在 SSIM、LPIPS 和多项直方图一致性指标上表现突出。

在 Aether-Bench 的风格修图任务中,VeraRetouch 在 PSNR、SSIM、LPIPS、DISTS、GMSD 和 Texture Distortion 等指标上均取得最优或领先表现,说明它不仅能跟随风格指令,也能更好地保留原图结构与纹理细节。

在参数修图任务中,VeraRetouch 的 PSNR 达到 30.18 dB,明显超过微调后的扩散模型基线,展现出对精确修图参数的强执行能力。

然而作者也在论文中提到,由于构造训练数据时采用联合高斯分布进行参数采样,模型在执行分布外参数时可能会出现一些不一致的情况。

从三个任务视频可以看到,VeraRetouch 的修图结果并不是简单改变整体滤镜强度,而是会根据任务类型分别处理画面亮度、色彩倾向、局部颜色与风格氛围。

对于自动修图,它更强调自然观感;对于风格修图,它更关注语言描述与视觉风格的一致性;对于参数修图,它则强调调整结果的可控性和可复现性。

速度方面,VeraRetouch 在 H20 GPU 上处理一张 512p 图像仅需 6.90 秒,快于 Flux.1 Kontext 的 16.78 秒和 JarvisArt 的 14.31 秒。

更重要的是,模型在消费级设备上也具备部署潜力:未经量化的版本在 MacBook Air M4 上约 7.46 秒,在 iPhone 16 Pro 上约 13.56 秒即可完成自动修图。

用户研究同样验证了这一点。38 名参与者的盲评结果显示,VeraRetouch 在视觉美感、指令一致性和纹理保持方面都获得了最高评分。

DAPO-AE 后训练也带来更明显的人类偏好提升,在对比实验中获得 61.62% 的偏好率。

当然,论文也指出,当前模型在局部修图能力上仍有提升空间。

未来若进一步引入像素级 mask 机制,VeraRetouch 有望支持更灵活的区域化编辑,例如只提亮人物面部、只调整天空色彩,或只优化背景氛围。

关于作者

vivo BlueImage Lab 是蓝图影像创新实验室,主要负责移动影像算法创新,包括图像 / 视频处理、图像 / 视频交互、图像 / 视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升 vivo 移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。

论文链接:https://arxiv.org/pdf/2604.27375

项目主页:https://apollo-yi.github.io/VeraRetouch/

代码链接:https://github.com/OpenVeraTeam/VeraRetouch

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

浙江大学 中国科学院大学 计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论