量子位 昨天
4K超分Agent修图师来了!一键救活所有模糊照片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

不管是包浆的旧照、AI 生成的低清图,又或是遥感 / 医学图像,现在都能智能修复并放大到 4K 超清分辨率。

图像清晰度提升一直是计算机视觉的 " 老问题 ",面对噪声、模糊、压缩损伤等复合退化,以及 AI 合成、遥感、生物医学等其他领域图像时,传统单一模型往往力不从心。

由德克萨斯 A&M 大学、斯坦福大学、Snap 公司、CU Boulder 大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs 以及加州大学 Merced 分校的研究者联合提出的基于 AI 智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到 4K 分辨率,带来优秀的视觉感知效果。该工作已被 NeurIPS 2025 接收。

传统图像放大模型通常只在特定类型图片上表现良好,一旦遇到真实世界中的复杂模糊、AI 生成图的伪影,或是遥感、医学等专业图像,就显得力不从心。

而将分辨率放大到 4K,更是对细节重建和纹理真实度都提出了极高要求。

而在多数用户角度来看,有一个既通用又可控的框架来解决各式图像提升分辨率的需要是再好不过的。4KAgent 正是在这些现实挑战与需求下诞生的。

基于多智能体的设计,4KAgent 可以为每张图像设计出一条通往 4K 分辨率的道路。

  4KAgent 的流程图 1. 智能 " 读图 ",诊断问题

感知智能体(Perception Agent)分析图像内容以及图像中的退化信息,为复原智能体提供执行计划。

首先,图像分析器(Image Analyzer)调用多种图像质量评估工具评估输入图像的质量,得到输入图像的多个感知质量指标 QI= ( Q1,Q2, … ) 。

然后,退化推理(Degradation Reasoning)利用视觉语言模型(VLM)基于输入图像以及感知质量指标 QI 进行推理,得到图像中存在的退化信息 DI 以及初步的复原任务列表 AI ′等信息,并配置放大倍数(Upscaling Factor Configuration):计算图像放大到 4K 分辨率所需的放大倍数 s 并在初步的复原任务列表 AI ′中添加对应的图像超分辨率任务,得到最终的复原任务列表 AI。

最后,任务规划(Task Planning)会基于前面步骤得到的信息,利用大语言模型(LLM)或者视觉语言模型(VLM)为输入图像制定一个复原计划(Restoration Plan)PI:复原任务的执行顺序。

2. " 执行 - 反思 - 回滚 ",不断试错优化

复原智能体(Restoration Agent)在执行复原计划 PI 中的每一步任务时,使用" 执行—反思—回滚(execution – reflection – rollback)"机制:

执行(Execution)阶段,4KAgent 会顺序执行 PI 中的复原任务。4KAgent 主要支持九种不同的复原任务,并收集了对应任务中 state-of-the-art 的模型来构建工具栏。4KAgent 在工具栏中调用不同的模型得到多张候选复原图像。

  4KAgent 的工具栏

反思(Reflection)阶段,复原智能体基于质量评分 QS 对候选复原图像进行评估,并选出得分最高者作为输出。4KAgent 中设计的 QS 综合了无参考图像质量指标(NIQE、MANIQA、MUSIQ、CLIPIQA)以及人类偏好分数 HPSv2。整体流程可视为一个质量驱动的专家混合系统Q-MoE(Quality-driven MoE):输入图像先经多个复原专家生成候选,再由反思模块选出最优结果。

当挑选出来的图像质量评分低于阈值 η 时,就会触发回滚(Rollback)机制:4KAgent 会生成上下文信息传递给感知智能体生成新的复原计划 PIadj,并为当前步骤指派新的复原任务。

  人脸修复模块

此外,4KAgent 集成了一个人脸修复模块(Face Restoration Pipeline):检测并裁剪出输入图像中的人脸,对于每张人脸,4KAgent 应用不同的人脸修复方法得到多个修复结果,并基于设计的人脸质量评分 Qsf 得到质量最高的人脸,将其贴回(paste back)到原始图像中。

4KAgent 还设置了Fast4K 模式来控制其运行时间。具体而言,当图像尺寸超过预设阈值 St 时,4KAgent 会从工具栏中去除推理时间较长的方法来加速推理。

随心配置,适应各种场景

为了应对不同的图像复原场景,4KAgent 中设计了配置模块(Profile Module),提供可配置的使用偏好(例如,优先感知质量还是保真度、是否激活人脸修复模块等),让 4KAgent 能适配不同图像复原场景且无需额外训练

总体上,4KAgent 把 " 分析、决策 " 与 " 执行、反思 " 分工到不同的智能体,并通过配置模块灵活地适应不同的复原需求,实现了通用的 4K 超分能力。

4KAgent 在 11 种不同的图像超分辨率任务上的 26 个基准测试集进行了广泛测试,包含经典图像超分辨率、真实世界图像超分辨率、多重退化图像复原、大尺度图像超分辨率(16 倍)等,以及其他图像领域的超分辨率任务,例如 AIGC 图像、遥感图像、生物医学图像等。

在经典图像超分辨率任务(Classical Image SR)和真实世界图像超分辨率任务(Real-World Image SR)中,4KAgent 生成的图像展现出更丰富、更精准的细节。例如,树皮上的细密条纹,鹿角的结构,羽绒服的纹理,以及数字的清晰度。

  经典图像超分辨率任务可视化对比

  真实世界图像超分辨率任务可视化对比

在具有挑战性的 16 倍放大任务中,4KAgent 生成高细节度且逼真的纹理,例如,岩石与草丛纹理,人脸图片中的发丝、眉毛纹理和眼睛细节。

  16 倍放大任务可视化对比

此外,研究还构建了 DIV4K-50 测试集(将 50 张 4096 × 4096 分辨率的高质量图像下采样到 256 × 256 分辨率并加入复合退化),用于检验从 256 × 256 → 4096 × 4096 的复原超分能力。在这个场景下,4KAgent 始终能重建更精细、更自然的细节,例如人脸细节、毛发纹理等。

  DIV4K-50 数据集可视化对比

4KAgent 是一个可控且通用的图像复原及 4K 超分辨 AI 智能体系统,旨在将各类图像提升至 4K 分辨率。4KAgent 在多个领域提升了图像复原质量,涵盖自然场景、人像、AI 生成内容,以及遥感、显微镜和医学影像等专业科学模态。在标准基准测试和专用数据集上的全面评估中表现出 4KAgent 在无需特定领域再训练的情况下,在各个场景下均能达到优秀的复原表现,彰显了其优秀的泛化能力,为其在消费级、商业级及科研级应用中的通用部署提供了实践价值。

项目主页:https://4kagent.github.io/

代码下载:https://github.com/taco-group/4KAgent

文章链接:https://arxiv.org/pdf/2507.07105

DIV4K-50 数据集:https://huggingface.co/datasets/YSZuo/DIV4K-50

作者及研究机构:

第一作者:左育莘(Yushen Zuo),德克萨斯 A&M 大学(Texas A&M University)研究实习生

通讯作者:涂正中(Zhengzhong Tu),德克萨斯 A&M 大学(Texas A&M University)助理教授

研究机构:德克萨斯 A&M 大学、斯坦福大学、Snap 公司、CU Boulder 大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs、加州大学 Merced 分校

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 分辨率 大学 医学 斯坦福大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论