让大模型只改错的地方,不误伤对的内容。
作者丨李宁 上海交通大学
大语言模型(LLM)在医疗、金融、法律等高风险场景中的部署,始终面临一个核心挑战——幻觉(Hallucination)。模型生成的内容可能包含与事实不符的实体、数字或逻辑关系,而这些错误往往隐藏在大量正确内容之中,极难检测和消除。
如何让大模型在减少幻觉的同时,不丧失回答的信息量和实用性?来自上海交通大学与腾讯的研究团队提出了一种全新的强化学习框架——BALTO(Balanced Token-Level Policy Optimization),通过平衡的 token 级信用分配机制,精准消除幻觉,同时保持回答的丰富性。
01
问题的本质:幻觉是 " 局部 " 的,但惩罚却是 " 全局 " 的
研究团队首先在金融问答数据集 FinLLM-Eval 上进行了先导实验,揭示了一个关键现象:
- 幻觉在 token 层面是极其稀疏的:每条回答中,幻觉 token 平均仅占 2.77%,中位数仅 1.87%。
- 但幻觉在回答层面却非常普遍:94.7% 的采样组中至少包含一条含有幻觉的回答。
这意味着,大多数回答只有极少数 token 出了问题,但传统的响应级强化学习方法(如 GRPO)会给整条回答打一个统一的分数。当少量幻觉 token 导致低分时,回答中大量正确的内容也会被错误地惩罚。这不仅降低了幻觉消除的效果,还会诱导模型生成更短、更保守的回答,牺牲信息量来 " 避险 " ——这正是所谓的奖励黑客(Reward Hacking)问题。
论文 arxiv 链接:https://arxiv.org/abs/2606.15893
02
BALTO 的核心思想:精准定位,平衡纠偏
BALTO 的设计理念可以用一句话概括:只惩罚真正出错的 token,同时给正确的事实 token 以正向激励,保持整体信号的平衡。整个框架分为两个阶段:
▎阶段一:细粒度幻觉 token 检测
1. 提取可验证的事实声明:从模型生成的回答中提取最小粒度的、可独立验证的事实声明(如实体、数值、日期、属性和关系等)。
2. 逐一验证:将每条声明与参考文档进行比对,判定其为 " 忠实 " 或 " 幻觉 "。
3. 精准定位错误 token:对于幻觉声明,进一步定位到最小的错误 token 子集。例如,对于声明 " 总收入下降了 11.4%",只有 "11.4%" 这个数字被标记为幻觉 token,而非整个句子。
▎阶段二:平衡的 token 级信用分配
BALTO 为每个 token 分配精准的优势值(advantage):
- 幻觉 token:优势值为 -1(负向惩罚)
- 忠实事实 token:优势值为 N ⁻ /N ⁺(正向补偿,其中 N ⁻和 N ⁺分别是幻觉 token 和忠实 token 的数量)
- 中性 token(非事实性内容):优势值为 0(不参与优化)
这一设计有一个优雅的数学性质——响应内零和平衡:每条回答中,所有 token 的优势值之和恰好为零。这意味着 BALTO 引导模型将概率质量从幻觉内容重新分配到忠实内容上,而不是压制整条回答的生成概率。
03
理论保证:更稳定,更高效
论文从理论上严格证明了 BALTO 的两大优势:
定理 1(方差压缩):GRPO 的梯度方差与回答总长度 T 成正比;BALTO 的梯度方差仅与幻觉 token 数量 N ⁻成正比。由于幻觉 token 通常只占回答的极小部分(N ⁻ ≪ T),梯度方差可被大幅压缩,训练过程显著更稳定。
定理 2(全阶段优化效率):设 p 为模型生成忠实回答的概率。训练初期(p → 0),GRPO 的期望梯度趋近于零,陷入 " 梯度饥饿 ";训练后期(p → 1),GRPO 对偶发错误的惩罚趋向无穷大,引发 " 惩罚爆炸 "。BALTO 的 token 级优势值始终有界于 [ -1, 1 ] ,在训练初期提供最强纠错信号,在收敛阶段梯度自然衰减,全程稳定高效。
04
实验结果:全面领先
研究团队在三个具有代表性的基准数据集上进行了系统评估:
- ConFiQA:反事实问答数据集,包含相互矛盾的证据
- RAGTruth:RAG 幻觉语料库,涵盖多种数据源和任务格式
- FinLLM-Eval:金融领域问答数据集,要求精确的数值和事实回答
使用 Qwen3-8B 和 Qwen3-4B 两种规模的模型,与 SFT、DPO、GRPO(二值奖励 / 密集奖励)、FSPO 等多种基线方法进行对比。
▎核心结果
特别值得注意的是,一些基线方法(如 FSPO)虽然在部分数据集上获得了更高的信息量分数,但往往以牺牲忠实度为代价。BALTO 是唯一在忠实度和信息量之间实现一致最优权衡的方法。
▎训练动态分析
实验进一步验证了理论预测:
- 梯度更稳定:BALTO 的策略梯度范数比响应级方法小一个数量级(均值 0.020 vs. 0.145 – 0.214),分布更加集中。
- 参数更新更高效:BALTO 仅更新约 12% 的模型参数即可达到 0.98 的忠实度,而 GRPO 需要更新约 17% 的参数才能达到 0.93。这说明 BALTO 能够精准地定位和修正产生幻觉的参数子集,最大程度保留模型的通用能力。
- 收敛更快:在三个数据集上,BALTO 在训练早期阶段就取得了最快的忠实度提升,并用更少的训练步数达到更高的最终性能。
▎消融实验
消融实验验证了平衡信用分配的关键作用:
完全移除正向优势(PA=0):忠实度和信息量均大幅下降
使用固定正向优势(PA=0.3 或 PA=1):性能不稳定,在不同数据集上表现参差不齐
- BALTO 的自适应平衡机制:在所有数据集上均实现最优表现
05
方法总结
BALTO 的设计体现了一个简洁而深刻的洞察:消除幻觉不是压制回答,而是精准地重新分配概率质量。 通过将事实检验的粒度从回答级下沉到 token 级,并引入平衡的信用分配机制,BALTO 让强化学习的优化信号真正作用于 " 该改的地方 ",避免了对正确内容的误伤。
这一框架对于将大语言模型部署在对事实准确性要求极高的场景(如金融分析、医疗问诊、法律咨询等)具有重要的实践价值。
上车,带你看遍全球 AI 顶会精华
可独家畅览:
专家演讲 PPT
大会报告全文
热门论文解读
学术新星访谈
扫描上方二维码
或点击「阅读原文」关注专区。
雷峰网 ( 公众号:雷峰网 )
雷峰网原创文章,未经授权禁止转载。详情见转载须知。


登录后才可以发布评论哦
打开小程序可以发布评论哦