量子位 昨天
让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

长文本图像检索新 SOTA 来了!

描述得越详细,图文匹配的分数就应该越高——这听起来是常识,但现有的 CLIP 模型却做不到。

而就在最近,中国联通数据科学与人工智能研究院团队在 AAAI 2026 ( Oral ) 上发表了一项最新成果,成功突破了这一局限。

研究名为HiMo-CLIP,通过巧妙地建模 " 语义层级 " 与 " 语义单调性 ",在不改变编码器结构的前提下,让模型自动捕捉当前语境下的 " 语义差异点 "。

由此,成功解决了视觉 - 语言对齐中长期被忽视的结构化问题,在长文本、组合性文本检索上取得 SOTA,同时兼顾短文本性能。

这一工作不仅提升了检索精度,更让多模态模型的对齐机制更加符合人类的认知逻辑,为未来更复杂的多模态理解任务指明了方向。

痛点:当描述变长,CLIP 却 " 懵 " 了

在多模态检索任务中,我们通常期望:文字描述越详细、越完整,其与对应图像的匹配度(对齐分数)应该越高。这被称为 " 语义单调性 "。

然而,现实很骨感。现有的模型(包括专门针对长文本优化的 Long-CLIP 等)往往将文本视为扁平的序列,忽略了语言内在的层级结构。

如下图所示,对于同一张 " 白色福特 F250 皮卡 " 的图片,当文本从简短的 " 正面视图… " 扩展到包含 " 超大轮胎 "、" 车轴可见 "、" 有色车窗 " 等详细描述的长文本时,许多 SOTA 模型的对齐分数反而下降了。

这种现象表明,模型未能有效处理长文本中的 " 语义层级 ",导致细节信息淹没了核心语义,或者无法在复杂的上下文中捕捉到最具区分度的特征。

图 1 随着描述变长,现有模型分数下降,而 HiMo-CLIP(绿勾)稳步提升方法:HiMo-CLIP 框架

为了解决上述问题,研究团队提出了一种即插即用的表征级框架 HiMo-CLIP。

它包含两个核心组件:层级分解模块(Hierarchical Decomposition,HiDe)和单调性感知对比损失(Monotonicity-aware Contrastive Loss,MoLo)。

图 2. HiMo-CLIP 框架概览

(1)HiDe 模块利用 Batch 内的 PCA 动态提取语义成分;(2)MoLo 损失函数强制模型同时对齐 " 全量文本 " 和 " 语义成分 ",实现单调性约束。

HiDe:谁是重点?由 " 邻居 " 决定

在真实场景中,数据样本往往是高度复杂的。

如上图 2 所示,我们面对的不是简单的 " 红苹果 " 和 " 青苹果 ",而是像 " 一只金毛猎犬在公园草坪上追赶红盘 "、" 盘子里放着鲜红的草莓、黄香蕉和深紫色的葡萄 " 这样高度复杂的场景。传统的固定分词法在这种复杂度下根本抓不住重点。

HiMo-CLIP 换了个思路,它像一个玩" 大家来找茬 "的高手:通过观察 Batch 内的 " 邻居 ",动态提取最具区分度的特征

长文本特征 f1:代表 " 整句话 " 的意思。

动态子语义 f2:代表 " 这句话里最独特的记忆点 "。举个栗子:假设长文本是:" 一只戴着墨镜的柯基在沙滩上奔跑 "。

场景 A(混在风景照里):如果这一批次(Batch)的其他图片都是 " 沙滩排球 "、" 海边游艇 "。PCA 一分析,发现 " 沙滩 " 大家都有,不稀奇。唯独 " 柯基 " 是独一份。→此时,f2 自动代表 " 柯基(物体)"。

场景 B(混在狗群里):如果这一批次的其他图片都是 " 草地上的柯基 "、" 沙发上的柯基 "。PCA 一分析,发现 " 柯基 " 遍地都是,也没法区分。唯独 " 戴墨镜 " 和 " 在沙滩 " 是特例。→此时,f2 自动代表 " 戴墨镜 / 沙滩(属性 / 环境)"。

这就是 HiDe 最聪明的地方:它不需要人教它什么是重点,而是利用统计学原理,自适应地提取出那个最具辨识度的 " 特征指纹 ",自动构建语义层级。

MoLo:既要顾全大局,又要抓住细节

找到了重点 f2,怎么用呢?作者设计了 MoLo,强制模型 " 两手抓 ":

MoLo=InfoNCE ( f1, feat ) + λ *InfoNCE ( f2, feat )

第一手:InfoNCE ( f1, feat ) 是传统的图文匹配,保证图片和 " 整句话 "(f1)对齐。

第二手:InfoNCE ( f2, feat ) 强制图片特征还要特别像那个提取出来的 " 独特记忆点 "(f2)。

这个操作看似简单,实则一石三鸟:

自动摘要:f2 就是特征空间里的 " 高维短文本 ",省去了人工构造短文本的偏差。

更懂机器的逻辑:人类定义的关键词(如名词)未必是模型分类的最佳依据(可能是纹理或形状)。PCA 完全在特征空间操作,提取的是机器认为的差异点,消除了人类语言和机器理解之间的隔阂(Gap)。

数据效率高:你只需要喂给模型长文本,它在训练中顺便学会了如何拆解长句、提取关键词。训练的是长文本,却白捡了短文本的匹配能力。

实验:长短通吃,全面 SOTA

研究团队在多个经典的长文本、短文本检索基准,以及自行构造的深度层级数据集 HiMo-Docci 上进行了广泛实验。

在长文本(表 1)和短文本(表 2)检索任务上,HiMo-CLIP 展现出了显著的优势。值得注意的是,HiMo-CLIP 仅使用了 1M(一百万)的训练数据,就击败了使用 100M 甚至 10B 数据的方法(如 LoTLIP,SigLIP 等)。

表 1 长文本检索结果

表 2 短文本检索结果

为了充分评估长文本的对齐效果,研究团队构建了 HiMo-Docci 数据集,同时还提出了HiMo@K 指标,以量化模型是否真的 " 读懂 " 了层级。结果显示,HiMo-CLIP 保持了极高的单调性相关系数(0.88),远超对比方法。

HiMo-Docci 上的单调性可视化

随着文本描述逐渐完整(1 → 5),HiMo-CLIP 的分数(红线)呈现出完美的上升趋势,而其他模型的分数则波动剧烈,甚至下降。

进一步的,为了探究各个组件对性能的具体贡献,研究团队进行了详尽的消融实验,揭示了 HiDe 与 MoLo 协同工作的内在机理。

感兴趣的朋友可到原文了解更多细节~

论文链接:https://arxiv.org/abs/2511.06653

开源地址:https://github.com/UnicomAI/HiMo-CLIP

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中国联通 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论