统一多模态嵌入模型是众多任务的技术基石。
当前主流方法通常采用批内负例挖掘策略,通过计算查询 - 候选对的相似度进行训练。
但这类方法存在明显局限:难以捕捉候选样本间细微的语义差异,负例样本多样性不足,且模型在区分错误负例与困难负例时的判别能力有限。
针对这些问题,团队提出全新解决方案——基于多模态大模型语义理解能力的统一多模态嵌入模型 UniME-V2。
该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入 "MLLM-as-a-Judge" 机制:利用 MLLM 对查询 - 候选对进行语义对齐评估,生成软语义匹配分数。
这一设计带来三重突破:
以匹配分数为依据实现精准困难负例挖掘,有效规避错误负例干扰
确保筛选出的困难负例兼具多样性与高质量特性
通过软标签机制打破传统一对一的刚性映射约束

通过将模型相似度矩阵与软语义匹配分数矩阵对齐,使模型真正学会辨析候选样本间的语义差异,显著提升判别能力。
为进一步提升性能,团队基于挖掘的困难负例训练出重排序模型 UniME-V2-Reranker,采用配对与列表联合优化策略。

图 1 UniME-V2 与以往方法的本质不同,在于巧妙利用了多模态大模型(MLLM)的深层语义理解能力。它不仅能用此能力精准挖掘 " 困难负例 ",更能生成一个软语义匹配分数,如同一位资深导师,指导模型学会辨别候选样本间微妙的语义差异。
方法 MLLM-as-a-Judge 困难负样本挖掘
过去的研究主要依赖于批内硬负样本挖掘,其中计算查询 - 候选嵌入相似性以采样负样本。
然而,这种方法通常受到负样本多样性有限和嵌入判别能力不足的困扰,难以有效区分错误和困难的负样本。
为了克服这些挑战,如图 2 所示,首先利用全局检索构建一个潜在的困难负样本集。
之后,利用 MLLM 的强大理解能力来评估每个查询 - 候选对的语义对齐性,并生成软语义匹配分数。
这个分数指导了硬负样本挖掘,使得能够识别出多样化和高质量的困难负样本,同时减少错误负样本的影响。

图 2:基于 MLLM-as-a-Judge 的困难负样本挖掘流程。我们首先利用现有的多模态嵌入模型进行全局检索,构建一个潜在的困难负样本集。然后,利用 MLLM 强大的理解能力根据语义对齐性对查询 - 候选对进行评分,从而精确识别困难负样本。
潜在困难负样本集合为了从全局样本中提取更高质量的困难负样本,首先使用 VLM2Vec 为查询和候选生成嵌入。
接着,为每个查询检索出 50 个最相关的候选。
为了应对错误负样本并增加多样性,我们基于查询 - 候选相似度分数设定一个相似度阈值,并选择前 50 名的候选作为潜在的困难负样本集:
其中 是由 VLM2Vec 模型计算得出的查询 与候选 的相似度分数。
语义匹配分数在构建潜在的困难负样本集后,我们使用 MLLM 作为评判,为中的每个查询 - 候选对计算语义匹配分数,具体指令如下:

随后,根据()和()标记的 logits 计算语义匹配分数,其中。这里,表示查询的数量。利用 MLLMs 的高级理解能力,语义匹配分数有效地捕捉了查询和候选之间的语义对齐程度。
困难负样本采样为了提高困难负样本的质量,利用语义匹配分数对候选进行精炼。
候选样本的分数超过阈值(其中表示正样本,是控制阈值间隔的超参数)则会当作错误负样本并排除。为保持多样性,采用五步间隔的循环采样策略。
如果精炼后的集合包含的候选少于十个,将重复选择以确保至少有十个。
在极少数情况下(<1%),如果没有候选符合条件,将从最初的五十个候选中随机选择 10 个,并给每个分配 1.0 的语义匹配分数。
最后,对于每个查询,我们获得困难负样本集及其相应的语义匹配分数。

图 3:基于 MLLM 判断的训练框架结构。UniME-V2 使用软语义匹配分数作为监督信号,以增强候选者间的语义区分学习。UniME-V2-Reranker 采用 pairwise 和 listwise 联合训练以提升重排序性能。
基于 MLLM 判断的训练框架
UniME-V2为此提出了一个基于 MLLM 判断的分布对齐框架,如图 3 所示,利用软语义匹配分数作为监督信号来提高表征性能。
具体来说,给定一个查询及其候选集,将它们输入到 MLLM 中,并提取最后一个标记作为查询和候选集的嵌入,其中是目标候选的嵌入,是每个查询的困难负样本数。然后计算查询嵌入与候选嵌入之间的关系得分矩阵如下:
基于语义匹配分数,计算由 MLLM 判断得出的语义匹配分数矩阵如下:
为了增强学习的稳健性并确保矩阵对称性,采用了 JS-Divergence,这是 KL-Divergence 的一种对称替代。最终的损失函数定义为:
除此之外,受前人工作启发,UniME-V2 联合 pairwise 和 listwise 训练了一个重排序模型 UniME-V2-Reranker(如图 3 所示)来提高基于初始嵌入的检索精度。
在成对训练中,为每个查询构造两对,一对与正候选结合,另一对与最困难的负候选结合。然后指导 UniME-V2-Reranker 对正候选输出,对负候选输出。成对损失使用交叉熵损失函数计算如下:
其中表示 UniME-V2-Reranker 的自回归输出过程。对于列表训练,基于语义匹配分数,从困难负候选中选择前个候选,随机插入目标候选并获取其索引。
然后提示 UniME-V2-Reranker 输出真实位置,公式为:
最终的损失函数定义为。

表 1:MMEB 基准测试结果。IND 表示在分布内,OOD 表示在分布外。分数为补充材料中的平均精度结果。
实验
多模态检索
表 1 展示了在相同训练数据和配置下 UniME-V2 与现有基线模型在 MMEB 基准上的性能对比。
UniME-V2 在各种基础模型上均有显著的性能提升。
具体来说,UniME-V2 在 Qwen2-VL-2B 和 7B 模型上分别比 VLM2Vec 高出 3.5% 和 2.2%。
当基于 LLaVA-OneVision 作为基础时,UniME-V2 比包括 QQMM、LLaVE 和 UniME 在内的之前的最先进模型提高了 0.5%-0.9%。此外,UniME-V2 在分布外数据集上的得分为 66.7,凸显其鲁棒性和卓越的迁移能力。

表 2:在短描述(Flickr30K, MS-COCO)、长描述(ShareGPT4V, Urban1K)和组合(SugarCrepe)数据集上的零样本文本 - 图像检索结果。
跨模态检索
如表 2 所示,在零样本跨模态检索任务上评估 UniME-V2。对于短描述数据集,包括 Flickr30K 和 MS-COCO,UniME-V2 在图像到文本检索中比 UniME 表现出了 2.2%-9.7% 的性能提升。
在文本到图像检索中,其性能与 UniME 相当,这主要归因于两个因素:
(1)MMEB 训练集中文本到图像数据的比例有限;
(2)短描述中的语义信息不足。
对于长描述跨模态检索任务,UniME-V2 在 ShareGPT4V 和 Urban1K 上取得了显著改进,这得益于其增强的区分能力和详细描述提供的丰富语义内容。
值得注意的是,与 EVA-CLIP-8B 相比,UniME-V2 展示了更为稳健的检索性能,这主要因为其通用多模态嵌入能显著减少模态间的差距(如图 4 所示)。

图 4:EVA-CLIP-8B 与 UniME-V2(LLaVA-OneVision-7B)之间的表示分布对比。
组合跨模态检索
基于 SugarCrepe 评估 UniME-V2 模型区分困难负样本的能力。
如表 2 所示,UniME-V2 在所有评估指标上均表现出卓越性能。
与 UniME 相比在使用 Qwen2-VL-2B 时性能提升了 5.3%,6.0%,4.5%。当模型从 2B 扩展到 7B 后也实现了 9.0%,9.2%,9.2% 的性能提升。
此外,与 EVA-CLIP-8B 相比,UniME-V2 还显示出 2.7%,3.4%,和 3.8% 的改进,凸显其在区分困难负样本上的强大能力。

表 3:使用 UniME-V2 ( Qwen2-VL-7B ) 和 UniME-V2 ( Qwen2-VL-2B ) 比较 LamRA 与 UniME-V2-Reranker 的重排序性能。
重排序对比
在表 3 中基于 top5 检索结果对比了 LamRA 与 UniME-V2-Reranker 的性能。为确保公平,使用与 LamRA 相同的训练参数和基础模型(Qwen2.5-VL-7B)。
当使用 LamRA 和 UniME-V2-Reranker 对 UniME-V2 ( Qwen2-VL-2B ) 检索结果进行重排后在四个下游任务上均提升了性能。
UniME-V2-Reranker 在只使用一半数据的情况下始终获得更优结果。类似地,使用 UniME-V2 ( Qwen2-VL-7B ) 进行检索时,UniME-V2-Reranker 的表现也超过了 LamRA,在四个任务中分别获得了 0.5%,0.4%,0.3%,和 7.4% 的性能提升。
值得注意的是,UniME-V2-Reranker 在组合理解检索任务中展示了对 LamRA 的显著优势,这归功于其利用 MLLM 的理解能力提取多样化和高质量的困难样本,有效增强了模型的区分能力。
论文:
https://arxiv.org/abs/2510.13515
GitHub:
https://github.com/GaryGuTC/UniME-v2
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见

