让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突

生成式模型当检索器大材小用效果还不好？

当多模态大模型（MLLM）凭借强大的图文理解与逻辑推理能力成为 AI 领域的核心抓手，将其应用于图像检索尤其是组合图像检索（CIR）任务，本应是降维打击的最优解。

然而现实却相悖：把生成式大模型强行改造为判别式检索器后，模型会出现严重的能力退化，连原本 100% 能精准解决的问题都频频出错，生成式与判别式的范式冲突，成为大模型向检索领域落地的核心壁垒。

如今，这一行业难题被 AI 国家队紫东太初团队联合新加坡国立大学成功攻克。其最新研究成果ReCALL框架，凭借独创的" 诊断 - 生成 - 校准 "闭环体系，从根本上解决了大模型从生成式到判别式的范式冲突问题，让大模型在保留原生细粒度推理能力的同时，完美变身高效检索器。

该成果已被计算机视觉顶会CVPR 2026正式录用，在 CIRR、FashionIQ 等主流基准测试中全面刷新SOTA 性能，更开辟了大模型下游任务能力无损适配的全新路径，为多模态大模型的垂直领域落地奠定核心基础。

行业痛点：范式冲突致大模型检索 " 智能倒退 "

为什么聪明的 MLLM 一做检索就容易翻车？作者团队一针见血地指出了问题的核心：范式冲突（Paradigm Conflict）。

原生的大模型习惯于生成式范式，它通过一步步的链式思考（Step-wise reasoning）来理解细粒度的视觉关系。但是，现有的检索适配方法往往采用判别式范式，强行把大模型的高维思考压缩成一个单一的向量，去计算相似度。

这种暴力的转变直接导致了一个致命后果——能力退化（Capability Degradation）。

如上图左侧所示，面对 " 地板上的两只同品种狗 " 这样需要细粒度推理的查询时，原生的大模型（F）通过 VQA 问答可以轻松锁定目标。然而，经过传统微调后的检索器版本（Rbase）却完全丧失了这种细粒度 grounding 能力，找出的全是错误的图。

定量数据更令人震惊：在原生大模型原本能够 100% 找对的子集上，微调后的检索器在 CIRR 数据集上 R@1 暴跌至 62.33%，在 FashionIQ 上暴跌至 55.80%。模型不仅没有学到新东西，反而把原本自带的推理天赋给弄丢了！

破局之道：ReCALL 四阶段校准框架

既然能力退化是因为初期的检索微调把大模型 " 带偏了 "，那怎么把它拉回正轨？

作者提出了一个通用的框架 ReCALL。它的核心思想非常巧妙：用大模型原生的推理信号，来纠正检索空间中的盲区。实际上，整个闭环被严密地划分为四个阶段，其中第一阶段完成了基础的检索器初始化并暴露出退化问题，后三个阶段则是极其优雅的 " 诊断 - 生成 - 打磨 " 校准管线：

Stage 1：基础检索适配（Baseline Adaptation）。为了让生成式大模型具备基本的图文检索功能，研究人员首先用标准的 InfoNCE 损失函数，将原生大模型（F）微调成一个基础检索器（Rbase）。这一步虽然赋予了模型基础的判别与检索能力，但也正是这种暴力的单向量压缩，诱发了前文提到的 " 能力退化 " 症状。

Stage 2：自我诊断（Diagnose）。俗话说 " 错题本是最好的老师 "。有了基础检索器后，让它在训练集上跑一遍，专门挑出那些它 " 找错 " 的样本（Informative Instances）。这些能高分骗过检索器的负样本，往往和正确答案有着极细微的视觉差别，它们正是模型能力退化、认知最模糊的 " 盲区 "。

Stage 3：生成校正（Generate）。拿着这些挑出来的错题，作者团队并没有简单粗暴地让原生大模型（F）重新 " 看图说话 "，而是精心设计了一套包含严密逻辑的链式思考（CoT）诱导机制。具体而言，这个 " 讲题 " 过程被巧妙地拆解为两个核心步骤：

① 意图分解与验证（Intent Decomposition & Verification）：大模型首先会将原始的修改指令拆解成一个个 " 原子意图 "，并挨个对照参考图和找错的图进行核查，精准定位出到底哪一个细粒度意图在错图中被违背了。

② 最小编辑合成（Minimal Edit Synthesis）：在抓住了矛盾点后，大模型会保留那些依然成立的意图，仅仅重写被违背的部分，从而 " 打补丁 " 式地合成出一条全新的修改指令。

通过这种极其精巧的设计，框架自动生成了从 " 参考图 " 指向 " 错图 " 的全新纠错三元组。这种从原文本到新文本的 " 极小幅文字编辑 "，在视觉上直接镜像了真实目标图与强干扰错图之间极其微妙的差异，从而为检索模型提供了极其显式、高密度的细粒度图文对齐监督信号。

更重要的是，这种严格遵循 " 最小编辑原则 " 的生成方式，绝非无拘无束的文本发散，它最大程度地保证了新构建的训练三元组与原始数据集在数据分布上的高度一致性。最后，再辅以 VQA（视觉问答）级别的语义一致性过滤，剔除掉幻觉和噪音，确保送入模型微调的 " 纠错信号 " 不仅直击痛点，而且绝对高保真。

Stage 4：针对性打磨（Refine）。有了精确的纠错指令，最后一步就是通过分组对比学习（Grouped Contrastive Refinement）来完成进化。框架会把原查询和对应的纠错查询打包放在同一个批次里 " 对冲 "，配合双重优化目标，逼迫检索器去明确区分那些极其细微的视觉 - 语义边界，最终将原生大模型的细粒度推理能力完美内化。

通过这套组合拳，检索器不仅重新找回了丢失的细粒度推理能力，还将其完美内化到了自己的向量空间中。

实测成绩：全场景刷新 SOTA，细粒度检索能力拉满

ReCALL 的有效性在各大主流基准测试中得到了验证。

在CIRR开放域复杂数据集上，ReCALL 创造了55.52%的 R@1 新 SOTA，相较于基线模型实现了8.38%的相对提升！在专门考察细粒度区分能力的子集上（R_{subset}@1），更是达到了恐怖的 81.49%。

在FashionIQ细粒度时尚数据集上，即便面对极度相似的服装干扰项，ReCALL 依然取得了最好的表现，平均 R@10 达到57.04%。

看看上面的实际检索案例，基线模型遇到 " 正视镜头 "、" 半袖 " 这种细粒度条件直接懵圈；而经过 ReCALL 校准后的模型，眼光毒辣，精准锁定目标！

结语

ReCALL 的成功不仅在于刷新了组合图像检索的性能上限，更在于它揭示并修复了多模态大模型在向下游任务迁移时的一道隐形裂痕。

大模型做检索，不应只是粗暴地将高维的 " 生成式智慧 " 压缩降维成单一的 " 判别式向量 "。从 " 盲目对齐 " 到 " 诊断—生成—内化 " 的逻辑闭环，大模型的检索适配正在进入一个强调保留与激发原生推理能力的新阶段。

当我们不再一味追求用海量外部数据去 " 喂 " 出一个检索器，而是教会模型用自己的思维链去剖析错题、缝合认知盲区时，它不仅找回了丢失的细粒度感知，更展示了生成与判别两大范式走向和解的可能。

这或许是大模型在诸多垂直领域真正实现 " 能力无损适配 " 的重要一步。

论⽂链接：

https://arxiv.org/abs/2602.01639

项⽬代码：

https://github.com/RemRico/Recall

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签