大模型最后一层竟是推理累赘？绕开对齐税，奥数准确率暴涨 22.4%！

传统认知默认：随着网络深度单调递增，思考结果也会变得更准确。

各类开源自回归大语言模型（LLM）的生成，也总是从最后一层输出。

然而，来自Qwen 团队、清华大学、南洋理工大学的最新研究成果打破了这一固有假设。

他们揭示了一个普遍存在的" 猜想 - 精炼 - 扰动 "（Guess-Refine-Perturb）动态过程：

模型的中间层往往已经凝聚了最精准的推理语义，而对齐 post-training（如 RLHF/DPO）则会在最末几层强加低秩 steering 扰动，使输出分布向通用、高频的" 安全词 "倾斜。这种现象被称为" 对齐税 "（Alignment Tax）。

为应对此种情况，研究团队提出了一种无训练、即插即用的解码策略——Confident Decoding（置信解码）。

实验表明，该方法在 Dense 和 MoE 架构上均可取得显著增益，在极难的科学、数学、代码评测集上实现明显的性能增长，且端到端 wall-clock 延迟增加不足 2%！

灵魂拷问：最后一层，真的总是最好的吗？

大模型在生成下一个 Token 时，标准做法（Standard Decoding）是将最后一层的隐状态经过 Normalization 和 Unembedding 映射到词表。这种方法暗含了一个底层假设：模型层数越深，表征能力越强，最后一层是模型内部计算与最终输出之间的 " 自然且最优接口 "。

然而，真的是这样吗？

在处理复杂的数理问题时，模型的中间层（熵谷 Trough 处）其实已经胜券在握，其内部高度确信应该输出 mass（质量）、radius（半径）、Cartesian（笛卡尔）等领域内高精度、强语义的词汇。

然而，一旦进入最末几层，受到对齐约束（Alignment Constraints）的强行拉扯，模型在最终层往往屈服于那些泛泛的高频功能词或标点，如 the、is、so 等。这种现象在复杂推理中导致了致命的" 规划 - 语用权衡 "（Planning-Pragmatics Tradeoff）：模型内部明明算出了正确的推理路径，却在临门一脚的表达上被带偏了。

为了探究这一底层机理，研究人员深入解构了 LLM 前向传播过程中残差流（Residual Stream）的动力学特征，量化分析了两个核心指标：

相对贡献模长（Relative Contribution Norm）：刻画每一层对残差流的写入强度。

残差输入输出余弦相似度（Residual I/O Cosine Similarity）：刻画每一层更新的方向保真度（Directional Fidelity）。

令人惊讶的是，模型的前向传播呈现出极其稳固的三阶段演流规律：

阶段 I：猜想（Guess，浅层区，l ≤ 0.15）：写入强度极高（Norm Ratio 约 1.6），方向发生剧烈偏转。模型在极高的不确定性中迅速构建初始的潜在表征。

阶段 II：精炼（Refine，中间层，0.15L ≤ l ≤ 0.95）：写入强度骤降并保持稳定（0.23-0.57），而方向相似度极高（0.91-0.97）。这意味着中间层在沿着一条稳定的语义轨迹进行方向保真的增量修正，不断融入上下文。

阶段 III：扰动（Perturbation，最末几层，l ≥ 0.95）：在最后一层，写入强度反弹，同时方向相似度出现断崖式下跌。这一显著的方向性偏转表明，最末层引入了一个结构上不可忽视、且方向不一致的更新，部分重写并污染了阶段 II 辛辛苦苦精炼出的推理语义。

机理剖析：" 对齐税 " 与 " 对齐安全护栏 " 的博弈

为什么大模型某些情况下会在最后一层发生这种语义偏转？这需要从后训练对齐（Post-training Alignment，如 RLHF、RLAIF、DPO）说起。

表示工程（Representation Engineering）的研究表明，人类偏好对齐倾向于激活最末几层的低秩 Steering 向量。在形式化上，最末层的表征在优化一个正则化风险，被迫向一个通用、安全的分布靠拢。

这种机制的影响是严格条件饱和的：

对齐作为安全护栏（Safety Guardrail）：在普通的闲聊或涉及安全的 Prompt 中，推理逻辑分布本就与安全分布相近，最末几层的微调只会优化格式，而不会破坏语义。

对齐作为对齐税（Alignment Tax）：但在严谨的数学、物理和代码世界中，特异性的逻辑分布与通用的存在严重的空间冲突。最末层的 Steering 强行将潜在状态拉离推理子空间，在数学上直接表现为一种破坏逻辑链的 " 熵值反弹 "（Entropy Oscillation）。

如上图（a）所示，在对 Qwen3.5-35B-A3B 进行 Token 级别的追踪时，有16.2% 的 Token 表现出了显著的预测熵（Entropy）在末级回升的特征。这群 Token 恰恰是推理走向崩溃的 " 重灾区 "（即发生了阶段 III 扰动）。而其余 83.8% 的 Token（上图（b））则没有表现出扰动，末层依然在老老实实做精炼。

因此，一种理想的提取机制必须是Token 自适应（Token-adaptive）的：既能在 perturbed token 上绕过阶段 III，又能在 unperturbed token 上完整利用最后一层的精炼能力。

破局之法：Confident Decoding（置信解码算法）

为了捕捉这一动态边界，研究团队引入了" 熵谷 "（Entropy Valley）的概念。既然预测熵（Shannon Entropy）越低代表模型的内部确定性越强，那么扫描靠近末尾的隐层，寻找第一个局部熵最低点，就能近似地锚定模型在受到扰动前的 " 最自信、最纯净 " 的语义状态。

下图提供了与传统算法的鲜明对照。静态提早退出（Static Early Exit）策略由于对所有 Token 一刀切，会粗暴地掐断困难 Token 必需的计算量，导致推理正确率雪崩。而基于熵谷（Entropy Valley）的动态选择策略不仅能保持极高准确率，甚至显著超越了标准最后一层输出。

下面是Confident Decoding的核心执行逻辑：

在每一代 Token 生成步：

模型依然完整执行所有 L 层的正向传播（这保证了 KV Cache、Attention Kernel 的行为完全不受干扰，具有工程兼容性）。

从最后一层 L 开始，沿着一个近末端的候选窗口 C，逆向扫描（Backward Scan）预测熵。

同时一旦发现熵值不再随着层数变浅而严格单调下降（即遇到了第一个局部熵谷），便立刻冻结选择，将该层计算出的 Logits 送入 Sampler。

理论保证：极小极大最优性（Minimax Optimality）

团队将动态层选择建模为一个最优停止问题（Optimal Stopping Problem）。在数学上证明了（Theorem 1），在投影噪声有界的前提下，这种保守逆向扫描机制能严格将选择层控制在对齐扰动发生前的区间内。它充当了一个确定性的过滤器，消除了对齐税带来的无界风险，同时将投影噪声的惩罚控制在渐进可忽略的界内。这也是为什么该算法天然具备 " 哪怕无益，损失也在可控范围内 " 的性能下界保证。

实验结果：全面激活模型的隐藏推理天花板

研究团队在 Dense（Gemma-4）和高稀疏 MoE（Qwen3.5、gpt-oss）等多种主流架构、不同参数量级上进行了大面积的横向评测。评测集涵盖研究生级科学难题（GPQA-Diamond）、多学科前沿评测（HLE）、奥林匹克级数学难题（Omni-MATH）、代码生成（LiveCodeBench v6）、安全对齐（Air-Bench 2024）以及长文本（LongBench v2）等。

全架构的通用普适性

实验表明，Confident Decoding 在所有模型家族上均取得了稳健的平均性能拉升：

在极其考验推理结构一致性的代码任务 LiveCodeBench 上，Qwen3.5-27B 斩获了惊人的 +9.4% 绝对性能飞跃。

在硬核前沿科学推理 GPQA-Diamond 上，Qwen3.5-35B-A3B 斩获了 +6.5% 的绝对提升。

同时，在安全对齐、长文本和开放式写作任务上，模型表现出了极佳的推理稳定性，这表明该算法完美保留了精炼阶段产生的 stylistic 及约束结构，而没有陷入末期的谄媚（Sycophancy）。

Instruct 模型 vs Base 模型——确证 " 对齐税 " 的存在

为了彻底确证最后一层的生成退化（阶段 III 扰动）究竟是模型架构固有的缺陷，还是后训练偏好对齐（Post-training Alignment）带来的副作用，研究团队进行了一个因果隔离实验：对比Qwen3.5-35B-A3B-Base（纯预训练基座）与其经过人类偏好对齐的Qwen3.5-35B-A3B（Instruct 指令微调版）。

按照理论推导，只进行了下文预测优化的 Base 模型，在残差流末端应当保持高度稳定的语义轨迹；而经历了密集 DPO/RLHF 策略优化的 Instruct 模型，在面对复杂逻辑时，最后一层会受到强烈的通用安全分布拉扯，从而产生更剧烈的阶段 III 扰动。

通过实验数据，我们可以得出三个具有启发性的洞察：

洞察一：对齐税的 " 因果实锤 "，Instruct 模型增益全面放大

实验数据显示，Confident Decoding 为Instruct 模型带来了高达 +2.6% 的全指标平均性能飞跃（从 58.3% 提升至 60.9%），而为Base 模型带来的平均增益仅为 +1.1%（从 55.0% 提升至 56.1%）。这种系统性的增益放大，提供了几何因果证据：最末层的表征退化并非硬件或架构底子不行，而恰恰是人类偏好对齐强加的 " 动态税收 "。

洞察二：狂飙的推理释放，冲破临门一脚的 " 对齐干扰 "

在极度依赖严密逻辑链的硬核科学评测GPQA-Diamond上，对齐税的破坏力暴露无遗。传统解码下，Instruct 模型的最后一层由于受到泛化词偏置的干扰，得分停留在 76.3%；而一旦使用 Confident Decoding 动态锁定熵谷、切断最末层的对齐噪声，Instruct 模型的得分瞬间飙升了 +6.5% 绝对百分点，斩获 82.8% 的惊人成绩。相比之下，Base 模型在该任务上仅提升了 +1.9%（70.3% → 72.2%）。这表明，该策略成功释放了对齐模型内部被压制的隐藏推理天花板。

洞察三：安全护栏未丢，反而治好了大模型的 " 过度防卫 "

很多人担心，绕过最后一层对齐行为会不会导致模型变坏、丧失安全底线？安全评测集Air-Bench的数据给出了答案：使用 Confident Decoding 后，Base 模型的安全性得分提升了+2.9%（67.3% → 70.2%），而Instruct 模型的安全性更是提升了 +3.7%（51.7% → 55.4%）。这强有力地证明，斩断末期扰动并没有剥离模型的安全基因。相反，它极大地缓解了模型在最末几层由于对齐 Steering 向量过度激活而导致的 " 幻觉性拒绝 "（Overly Conservative Refusal），让模型能够以更严谨的逻辑、更合规的方式去正面回应复杂指令，实现逻辑 fidelity 与 Rigorous 合规性的双赢。

此外，这种宏观表现也得到了微观 Token 级别的严密验证。在 Instruct 模型中，backward scan 成功为12.8% 的 Token 锚定非平庸熵谷，而 Base 模型为 10.4%。最终发生实际 Token 替换（Substitution）的硬替换率，Instruct 模型（2.60%）也高于 Base 模型（2.36%）。这再次印证了：对齐程度越深，最末层遭受的偏转干扰就会越严重，而 Confident Decoding 的精准外科手术式干预也就越具威力！

难度越大，算法越强：惊人的规模扩展律

研究人员将数学评测集（MATH 和 Omni-MATH）按照基线模型的成功率划分为 Level 1（最简单）到 Level 4（最难）四个等级。

在 Level 1 的极简任务中，推理路径极短，天然符合通用安全分布，阶段 III 的扰动微乎其微。算法此时表现出边际效应（如 MATH 上微跌 -0.1% 到 -0.4%），这符合理论预期，因为极其简单的 Token 在最后一层往往需要微调其表面语法和输出格式。

然而，在面对 Level 3 和 Level 4 的极端难题时，模型必须深入低频、特异的专业语义子空间，对齐扰动的摧毁性达到了顶峰。在最难的 Omni-MATH Level 4 难题中，标准解码下的 gpt-oss-20b 推理能力彻底发生坍塌，正确率仅剩惨不忍睹的 1.1%。然而，通过动态锁定熵谷并无情斩断阶段 III 扰动，Confident Decoding 硬生生地将大模型从逻辑废墟中拯救了出来，取得了高达 +22.4% 的震撼性阶跃提升！

推向生产线：低于 2% 的极低工程开销

在生产级推理引擎（如 vLLM）中部署任何层级干预算法，都面临着极其苛刻的延迟和图编译挑战。诸如连续批处理（Continuous Batching）、Tensor Parallelism、CUDA Graph Replay 等技术，对任何动态内存分配或 Python 属性篡改都极度敏感。

研究团队在 vLLM 中通过以下三大工程原则实现了原生级别的安全适配：

完整前向传播流：完全不截断 Transformer 计算，L 个 Block 全量跑完，使得 KV Cache 的复用、前缀缓存（Prefix Caching）以及调度器无缝平移，拥有零内存额外分配的优雅底色。

图安全（Graph-safe）候选提取：编译区只负责收集候选 Tensor，将所有的归一化、Unembedding 投影以及熵计算完全剥离至外层的 Eager Language-Model Wrapper 中。利用按形状（Shape-aware）索引的单次消费（Consume-once）协议，杜绝了 CUDA Graph 录制状态下的 Buffer 泄露或 stale 状态污染。

高度向量化的延迟更新：利用每 Token 冻结掩码（Per-token Frozen Mask），将逆向 trough scan 彻底坍塌为并行的 Tensor 融合操作，消除了任何高昂的 Python 逐 Token 循环。

在真实的 FLOPs 消耗和墙钟延迟审计中，该算法展现出了惊人的外科手术式外科介入特征：

在实际运行中，由于 88.5% 的 Token 在最后一层其预测分布本就极度浓缩（预测熵 H<0.01），算法会触发高度稀疏的 Lazy Evaluation 机制，快速跳过后续逆向扫描。

只有 11.5% 的扰动高危 Token 会启动逐层的 backward scan，而其中最终发生 Token 实际替换（Substitution）的仅占全量生成 Token 的 2.47%。这种极其克制的精准干预，使得端到端 wall-clock 推理延迟的增加被死死钉在了 <2% 的极低水准，完全适配高吞吐、低延迟的工业级大规模线上服务环境。

结语与展望：开启大语言模型 " 垂直 TTC 扩展 " 新范式

这项研究从根本上挑战了 "LLM 最后一层即最优表征 " 的常识，将后训练对齐带来的隐藏缺陷（对齐税）清晰地暴露在表示空间的几何结构中。

正如论文最后所总结的，大模型的 Test-Time Compute（测试期计算扩展，TTC）不应该仅仅聚焦于在网络外部 " 想多久 "（如 Scaling CoT tokens），优化模型在网络内部的 " 在哪停 "（Where to stop internally）同样蕴含着巨大的、尚未被充分发掘的红利。

Confident Decoding 成功为对齐大模型构筑了一面垂直方向上的" 架构护盾 "，为估计 Transformers 模型的内部推理深度提供了一种可行的估计方法。未来，研究团队将进一步探索在训练期将偏好对齐专门施加于特定的专用路由头，而非污染核心残差流的底层方案；同时，利用隐层的熵几何结构来设计更为精准的强化学习（RL）奖励函数，同样是走向 natively 稳健、不简单向对齐妥协的下一代原生推理大模型的重要技术前沿。

论文链接：https://arxiv.org/abs/2606.21906

Github：https://github.com/QwenLM/Confident-Decoding

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

【学术投稿】请在工作日发送邮件至：ai@qbitai.com，标题注明【投稿】，并告诉我们：你是谁，从哪来，投稿内容附上项目 / 主页链接，以及联系方式。

我们会 ( 尽量 ) 及时回复你 : )

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签