让RAG真正读懂“言外之意”！新框架引入词汇多样性，刷新多项基准SOTA

RAG 准确率提升 10.6%，多项基准拿下新 SOTA！

ACL 2025 最新研究提出Lexical Diversity-aware RAG ( DRAG ) 框架，首次系统性地将词汇多样性引入 RAG 的检索与生成过程，提供了一个轻量、通用且易扩展的解决方案。

在多项基准任务中，该方法带来了显著性能提升，尤其在 HotpotQA 上刷新了当前最优结果。

在大语言模型的浪潮下，Retrieval-Augmented Generation（RAG）已经成为提升模型事实性和时效性的重要手段。然而，现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性（lexical diversity）。

同一个问题，不同的表达方式，往往让检索模型 " 晕头转向 "，最终导致错误答案。

由此，来自北航、北大、中关村实验室的研究团队提出了这项最新工作，他们首次将 " 词汇多样性 " 引入检索增强生成的相关性评估过程，并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。

团队认为，该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来，他们计划进一步拓展该方法到更多专业场景，让大模型不仅能 " 读懂 "，更能 " 理解 " 复杂的人类语言表达。

词汇多样性：RAG 的隐形痛点

研究团队指出，现有 RAG 方法大多通过 " 单一标准 " 判断检索文档是否相关，但现实情况要复杂得多。如图所示，以问题 "What is Hattie McDaniel ’ s occupation?" 为例，其中的语义成分表现出不同程度 " 词汇多样性 "：

不变词（Invariant）：人名 "Hattie McDaniel" 一般不会变形；

可变词（Variant）：词语 "occupation" 可以对应 "profession""actress" 甚至 "Academy Award"；

补充信息（Supplementary）：答案可能依赖 "American celebrity" 等扩展语境。

这种词汇多样性往往导致模型错误地将部分相似但无关的文档判为相关，或者忽略了真正有用的信息。

两大关键创新

为解决 " 词汇多样性 " 带来的挑战，研究团队提出了该框架，核心在于两个互补模块：

1、Diversity-sensitive Relevance Analyzer （DRA )

传统检索相关性评估往往 " 一刀切 "，把整体查询和检索文档进行比较。该方法则进一步拆解查询语义，针对不同成分采用差异化策略：

不变成分：如人名、地名等必须精确匹配的关键词，该方法强调其检索文档应与该成分严格匹配；

可变成分：如 "occupation" — "profession"，DRA 借助 LLM 的语义扩展和分析能力，在检索时允许一定语义灵活性；

补充成分：如 "American celebrity"，该方法通过检索需求的明确程度来判断是否需要真正提供有用的补充证据。

在此基础上，该方法通过该模块对相似度检索结果进行重排序，输出一个更细粒度、多维度的相关性评分，避免检索时存在的 " 假阳性 " 和 " 假阴性 " 的常见问题。

2. Risk-guided Sparse Calibration

即使有了更精准的检索，生成阶段仍然可能 " 被干扰 "。Risk-guided Sparse Calibration 的设计灵感来自 " 风险控制 "：它会实时监控每个生成 token 的 " 被误导风险 "，并在必要时进行解码校准。

词汇风险 ( Lexical Risk ) ：检测生成内容是否过度依赖低相关的词汇；

注意力风险 ( Attention Risk ) ：评估模型注意力是否集中在无关段落；

预测风险 ( Prediction Risk ) ：衡量当前预测是否与检索证据存在冲突。

RSC 的独特之处在于它的稀疏性 ( sparse calibration ) ：只对高风险 token 动态干预，而不会对全局输出强行重写，从而保证了生成质量与效率的平衡。

最终，DRA 负责 " 挑选更靠谱的材料 "，RSC 负责 " 防止模型走偏 "，形成了检索与生成环节的双保险，让 RAG 更稳健、更准确。

实验结果：显著超越现有方法

团队在多个开放域问答基准上验证了该方法：

其中，该方法在 PopQA/TriviaQA（短文本问答）：准确率分别提升 4.9% 和 4.4%；HotpotQA/2WikiMultiHopQA（多跳问答）：准确率均提升 10.6%，展现出强泛化性；在 ASQA（长答案生成）：在 str-em、QA-F1 等指标上刷新 SOTA。

不仅如此，该方法在不同类型、大小的模型上均表现出显著增益，如 Llama2-7B， Llama2-13B, Qwen2-7B, Alpaca-7B 和 Mistral-7B 等。

论文链接：

https://aclanthology.org/2025.acl-long.1346/

代码（即将开源）:

https://github.com/Zhange21/DRAG

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代