雷锋网 昨天
上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

让大模型只改错的地方,不误伤对的内容。

    作者丨李宁   上海交通大学

  

                                                                                                       

大语言模型(LLM)在医疗、金融、法律等高风险场景中的部署,始终面临一个核心挑战——幻觉(Hallucination)。模型生成的内容可能包含与事实不符的实体、数字或逻辑关系,而这些错误往往隐藏在大量正确内容之中,极难检测和消除。

如何让大模型在减少幻觉的同时,不丧失回答的信息量和实用性?来自上海交通大学腾讯的研究团队提出了一种全新的强化学习框架——BALTO(Balanced Token-Level Policy Optimization),通过平衡的 token 级信用分配机制,精准消除幻觉,同时保持回答的丰富性。

01

问题的本质:幻觉是 " 局部 " 的,但惩罚却是 " 全局 " 的

研究团队首先在金融问答数据集 FinLLM-Eval 上进行了先导实验,揭示了一个关键现象:

-  幻觉在 token 层面是极其稀疏的:每条回答中,幻觉 token 平均仅占 2.77%,中位数仅 1.87%。

-  但幻觉在回答层面却非常普遍:94.7% 的采样组中至少包含一条含有幻觉的回答。

这意味着,大多数回答只有极少数 token 出了问题,但传统的响应级强化学习方法(如 GRPO)会给整条回答打一个统一的分数。当少量幻觉 token 导致低分时,回答中大量正确的内容也会被错误地惩罚。这不仅降低了幻觉消除的效果,还会诱导模型生成更短、更保守的回答,牺牲信息量来 " 避险 " ——这正是所谓的奖励黑客(Reward Hacking)问题。

论文 arxiv 链接:https://arxiv.org/abs/2606.15893

02

BALTO 的核心思想:精准定位,平衡纠偏

BALTO 的设计理念可以用一句话概括:只惩罚真正出错的 token,同时给正确的事实 token 以正向激励,保持整体信号的平衡。整个框架分为两个阶段:

阶段一:细粒度幻觉 token 检测

1.  提取可验证的事实声明:从模型生成的回答中提取最小粒度的、可独立验证的事实声明(如实体、数值、日期、属性和关系等)。

2.  逐一验证:将每条声明与参考文档进行比对,判定其为 " 忠实 " 或 " 幻觉 "。

3.  精准定位错误 token:对于幻觉声明,进一步定位到最小的错误 token 子集。例如,对于声明 " 总收入下降了 11.4%",只有 "11.4%" 这个数字被标记为幻觉 token,而非整个句子。

阶段二:平衡的 token 级信用分配

BALTO 为每个 token 分配精准的优势值(advantage):

-  幻觉 token:优势值为  -1(负向惩罚)

-  忠实事实 token:优势值为  N ⁻ /N ⁺(正向补偿,其中 N ⁻和 N ⁺分别是幻觉 token 和忠实 token 的数量)

-  中性 token(非事实性内容):优势值为  0(不参与优化)

这一设计有一个优雅的数学性质——响应内零和平衡:每条回答中,所有 token 的优势值之和恰好为零。这意味着 BALTO 引导模型将概率质量从幻觉内容重新分配到忠实内容上,而不是压制整条回答的生成概率。

03

理论保证:更稳定,更高效

论文从理论上严格证明了 BALTO 的两大优势:

定理 1(方差压缩):GRPO 的梯度方差与回答总长度 T 成正比;BALTO 的梯度方差仅与幻觉 token 数量 N ⁻成正比。由于幻觉 token 通常只占回答的极小部分(N ⁻ ≪ T),梯度方差可被大幅压缩,训练过程显著更稳定。

定理 2(全阶段优化效率):设 p 为模型生成忠实回答的概率。训练初期(p → 0),GRPO 的期望梯度趋近于零,陷入 " 梯度饥饿 ";训练后期(p → 1),GRPO 对偶发错误的惩罚趋向无穷大,引发 " 惩罚爆炸 "。BALTO 的 token 级优势值始终有界于 [ -1, 1 ] ,在训练初期提供最强纠错信号,在收敛阶段梯度自然衰减,全程稳定高效

04

实验结果:全面领先

研究团队在三个具有代表性的基准数据集上进行了系统评估:

-  ConFiQA:反事实问答数据集,包含相互矛盾的证据

-  RAGTruth:RAG 幻觉语料库,涵盖多种数据源和任务格式

-  FinLLM-Eval:金融领域问答数据集,要求精确的数值和事实回答

使用 Qwen3-8B 和 Qwen3-4B 两种规模的模型,与 SFT、DPO、GRPO(二值奖励 / 密集奖励)、FSPO 等多种基线方法进行对比。

核心结果

特别值得注意的是,一些基线方法(如 FSPO)虽然在部分数据集上获得了更高的信息量分数,但往往以牺牲忠实度为代价。BALTO 是唯一在忠实度和信息量之间实现一致最优权衡的方法。

训练动态分析

实验进一步验证了理论预测:

-  梯度更稳定:BALTO 的策略梯度范数比响应级方法小一个数量级(均值 0.020 vs. 0.145 – 0.214),分布更加集中。

-  参数更新更高效:BALTO 仅更新约 12% 的模型参数即可达到 0.98 的忠实度,而 GRPO 需要更新约 17% 的参数才能达到 0.93。这说明 BALTO 能够精准地定位和修正产生幻觉的参数子集,最大程度保留模型的通用能力。

-  收敛更快:在三个数据集上,BALTO 在训练早期阶段就取得了最快的忠实度提升,并用更少的训练步数达到更高的最终性能。

消融实验

消融实验验证了平衡信用分配的关键作用:

完全移除正向优势(PA=0):忠实度和信息量均大幅下降

使用固定正向优势(PA=0.3 或 PA=1):性能不稳定,在不同数据集上表现参差不齐

-  BALTO 的自适应平衡机制:在所有数据集上均实现最优表现

05

方法总结

BALTO 的设计体现了一个简洁而深刻的洞察:消除幻觉不是压制回答,而是精准地重新分配概率质量。  通过将事实检验的粒度从回答级下沉到 token 级,并引入平衡的信用分配机制,BALTO 让强化学习的优化信号真正作用于 " 该改的地方 ",避免了对正确内容的误伤。

这一框架对于将大语言模型部署在对事实准确性要求极高的场景(如金融分析、医疗问诊、法律咨询等)具有重要的实践价值。

上车,带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲 PPT

大会报告全文

热门论文解读

学术新星访谈

扫描上方二维码

或点击「阅读原文」关注专区。

雷峰网 ( 公众号:雷峰网 )

雷峰网原创文章,未经授权禁止转载。详情见转载须知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 上海交通大学 黑客 abs 医疗
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论