量子位 昨天
大模型越反思越错,原来是长链推理通过自我说服加重幻觉
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

当推理链从 3 步延伸到 50+ 步,幻觉率暴增 10 倍;反思节点也束手无策。

来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一 " 越想越错 " 现象背后的元认知偏差:

长链推理中的反思不是纠错机制,而是给幻觉颁发 " 理性证书 " ——

模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提

风险缺口:长链 CoT 放大 " 误差滚雪球 "

推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大

在医疗、金融、法律等高风险场景,一次细小偏差就可能酿成灾难。

遗憾的是,当前安全评估几乎都停留在结果级:判定答案对错、衡量毒性与否,犹如 " 考试只看最后分数 "。

这种做法忽视了一个关键问题:错误到底是如何在链内生根、扩散并固化的?如果无法洞察这一机制,就难以对症下药。

北京邮电大学的研究团队为解决这一问题,采取了以下方法:

首先基于 RFC 协议文档构建受控知识域,再让模型生成30 – 60 步的长链推理,并在关键节点插入 reflection 操作以实时记录置信度变化。

具体而言,他们构建了一个受控知识领域,该领域捕获了两种类型的幻觉案例,克服了在受控环境中可靠地重现幻觉的困难(图 a)。

这个领域具有以下三个特点:

封闭性:1515 道问题严格限定在 314 份 RFC 技术文档内,杜绝外部干扰;

可验证:每个知识单元带明确真值标签;

高压陷阱:在 30% 的问题中预埋三重错误事实(如篡改协议校验规则),测试模型纠偏能力。

然后,他们提出了一种针对长链推理的建模系统,该系统追踪知识是如何在多个推理步骤中被引入、反馈和完善的,解决了在复杂的推理轨迹中研究幻觉演化的挑战(图 b)。

更进一步,他们还审计了幻觉实例,以归因于现实案例中幻觉的传播,应对了理解长链推理背后幻觉潜在机制这一挑战。如图 c 所示,k1 和 k3 通过错误知识引入幻觉,将最初正确的思维链第一步(c1)经由 c3 反射扭曲为幻觉产生的 c4,从而揭示了推理模型中存在的潜在风险。

反思越深错误越真:长链推理的自我说服

通过对结果进行分析,北京邮电大学的研究团队揭示了 RLLM 产生幻觉的核心机制:

当模型在长思维链中反复挣扎,它不是在逼近真相——而是在用千余词的复杂推理,固化几十个词的错误答案。

1、外部错误诱发内部造假

实验显示,当模型遭遇预埋错误(如 "UDP 校验绑定 HMAC 安全 ")时:

仅 25.9% 直接采纳

55.9% 触发内部知识编造流程(例如:虚构 "RFC5.2 要求校验位包含密钥 ")

2、反思(Reflection)沦为自我说服工具

自我说服:生成假设性主张 ( " 或许校验确保 HMAC 完整 " )

知识造假:追加虚构依据 ( " 参见 RFCXX.Y 条款 " ) ;

元认知漂移:token/claim 双级别置信度不降反升。

正向干预实验:解析长链推理的 " 病变 " 现象

为了检验上游推理的变化如何影响下游,北京邮电大学的研究团队设计了一个正向干预实验,可以拆解为以下三步:

1. 精准定位:在 1015 条长链样本中标记首个错误知识节点(如虚构的协议条款)。

2. 三阶段干预

错误发生前(Edit1):在首个错误节点前注入修正知识;

错误发生时(Edit2):直接替换错误节点;

错误发生后(Edit3):在错误下游插入修正。

3. 六维评估指标

是否接受修正?

推理链是否发生改变?

最终答案是否随之改变?

推理链与答案是否保持一致?

修正在整个链条中的传播程度如何?

残留幻觉的比率有多少?

长链幻觉检测结果:现有方法难以应对

评测 7 大主流检测方法,最优者耗时 2 小时 / 样本,准确率仍不足 79%。

在 1500+tokens 的长思维链样本上验证,结果显示当前检测方法在元认知级幻觉面前效果堪忧。

通过正向干预实验对长链幻觉进行检测,结果显示:

Edit1 对下游推理的影响显著大于 Edit2 和 Edit3,表明干预效果会沿推理链递减。

Edit2 编辑案例比 Edit1 表现出更高的接受度和更低的幻觉率,这意味着模型对 Edit2 的置信度较低,更容易受到干预影响。

使用 7 种主流的检测方法对幻觉进行检测,得到以下结果:

速度与精度互斥:分钟级方法准确率≤ 61.6%,78.9% 高精度需较高算力;

细粒度检测无解:现有技术无法识别元认知漂移(如反思中错误强化)。

也就是说,现有干预措施无法从根本上消除幻觉现象,当前模型也缺乏足够的应对能力

论文原文:https://arxiv.org/abs/2505.13143

代码仓库:https://github.com/Winnie-Lian/AHa_Meta_Cognitive

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

北京邮电大学 审计 考试 证书 浮出水面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论