近年来,随着 o1、DeepSeek-R1 等模型的爆发,Long Chain-of-Thought(Long CoT)已成为提升 LLM 复杂推理能力的标配。
然而," 长思考 " 并非总是完美的。我们常发现模型会陷入 " 过度思考 "(Overthinking)的陷阱:为了得出一个简单的结论,模型可能会生成数千个冗余 Token,甚至在错误的路径上反复横跳(Backtracking)。这不仅浪费了宝贵的算力,还增加了推理延迟。
如何让模型在 " 深思熟虑 " 的同时,保持 " 思维敏捷 "?
近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro(Rectifying Process-level Reward)。
这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的 CoT 提供了一个全新视角:
核心观察:推理即优化
RePro基于这样一个核心思想:将模型的推理轨迹(Trajectory)看作是在损失曲面上寻找最优解的路径。
每一个推理步骤(Step),都相当于一次梯度更新。
优化的目标,是最大化生成正确答案(Ground Truth)的概率。
在这个视角下,什么是 " 好的推理 "?
有效更新:每一步都能显著提升模型对正确答案的信心(Loss 下降)。
稳定收敛:推理方向坚定,不反复横跳,不震荡。
反之,什么是 " 过度思考 "?
陷入鞍点:生成了大量 Token,但对正确答案的概率贡献微乎其微。
梯度震荡:思路混乱,信心忽高忽低。
RePro 的三大 " 矫正 " 机制
基于上述视角,RePro 设计了一套过程奖励机制,直接嵌入到 RLVR(如 PPO,GRPO)流程中。
1. 代理目标函数 J
RePro 设计了一个可计算的 " 目标函数 J",用于量化模型当前的置信度。具体来说:
模型在当前推理上下文下,生成正确答案各个 token 的平均对数概率。

直觉解释:
当模型还没开始思考时,直接猜出答案的概率很低,J ̃ 很小。
随着模型一步步推理,排除错误选项,锁定逻辑链路,模型对最终答案的信心应该越来越强,J ̃ 应该逐渐增大。
当模型完成推理得出结论时,J ̃ 应该达到峰值。
这个指标越高,说明模型越 " 自信 " 答案正确,是一个合理的优化代理指标。

团队发现,正确的推理路径上,J ̃ 会平稳上升,而 " 胡思乱想 " 的路径则震荡或停滞。
2. 双重评分机制:优化强度 + 稳定性
为了量化推理质量,RePro 将 J ̃ 的变化拆解为两个维度:
基于代理目标函数,REPRO 将推理矫正形式化为:在推理轨迹上最大化目标函数 J ̃ 的增长速率与增长平滑性的双重优化问题。
相较于传统强化学习仅关注最终结果(Outcome Reward)的稀疏反馈机制,REPRO 引入了过程感知的轨迹优化范式:
强度不足(如梯度消失或步长过小)对应增长速率惩罚
稳定性差(如优化振荡)对应平滑性惩罚
高效下降则同时满足高增长率与高稳定性,获得正向激励
该方法鼓励模型生成逻辑连贯且语义收敛的推理链。

基于 J 序列,RePro 引入了两个评分:
Magnitude Score(强度评分):衡量目标函数的提升幅度
强度评分 Smagn 旨在回答一个问题:这一段思考,到底让模型离答案近了多少
在优化理论中,梯度的大小决定了下降的快慢。在推理中,这意味着一段有效的 CoT 应该显著提升模型对答案的信心。REPRO 通过比较当前步骤后的目标函数值 J ̃ 与基线值 J ̅(即不进行任何思考直接回答的信心)来计算这一增益。

其中,Δ 代表相对增益:

这里使用 tanh 函数的目的是将分数归一化到 ( 0,1 ] 区间。在实际训练中,某些步骤可能会导致对答案的信心指数级暴涨(例如终于算出了关键中间变量),如果不加限制,这种巨大的奖励信号可能会导致梯度爆炸或训练不稳定。
Stability Score(稳定性评分):衡量 J 是否平滑上升
稳定性评分 Sstab 旨在回答另一个问题:这段思考的过程是顺畅的,还是充满了犹豫和反复?
如果将 J ̃ 的变化看作一条曲线,理想的推理应该是一条单调上升的曲线。如果曲线上下波动,说明模型陷入了自我怀疑或逻辑混乱。为了量化这种 " 波动 ",RePro 利用了Kendall ’ s Tau相关系数。

这一公式计算的是 J ̃ 值序列与时间步序列 {1, … ,t} 之间的秩相关性。
高稳定性(接近 1):每一步的 J ̃ 值都比前一步高,这表明模型每一步都在进步,没有回撤。这对应于优化过程中沿着最速下降方向的平滑移动。
低稳定性(接近 0 或负值):序列杂乱无章,进两步退一步,甚至出现严重的逻辑倒退。这对应于模型在鞍点附近的随机摆动,消耗了步数(Token)但未取得实质进展。
Magnitude Score和Stability Score两者加权构成最终过程评分 S,可用于判断某段思维路径是否值得强化或惩罚。
3. 流程级奖励整合进 RL 训练

直接为每个 token 打分代价太高,于是 RePro 采用熵值筛选策略:
分段:将推理链按逻辑段落(如换行符 nn)分割为 {c1, c2, … , cN}。
熵计算:计算每个段落首 Token 的熵ℋ ( ci, ( 0 ) ) 。
Top-k 筛选:只选择熵最高的前 k 个段落(Top-k Segments)进行 REPRO 奖励计算。
这种策略不仅大幅降低了计算开销(从全序列计算变为只计算 k 个点),还起到了 " 好钢用在刀刃上 " 的效果——只在模型最迷茫、最关键的时刻给予指引,而在其自信流畅的时刻(低熵区域)保持静默,避免过度干预。
然后,通过计算过程评分的提升量 Δ S,作为这一片段的 " 过程级奖励 ",与最终正确与否结合,作为 RL 的优势函数输入。
这种方法既高效又精准,能引导模型在关键决策点生成更优推理。
实验:不只更准,而且更 " 省 "
RePro 在数学、科学、编程等多个任务上进行了广泛实测,包括:
AIME24 / AIME25 / MATH500(数学推理)
GPQA-Diamond(科学问答)
MBPP / LiveCodeBench(代码生成)
并在以下模型上进行训练测试:
DeepSeek-R1-Distill-Qwen-1.5B
Qwen3-1.7B / 8B
Hunyuan-Instruct 等
在所有 RL 算法(PPO、REINFORCE++、GRPO)下,RePro 都带来了稳定提升。
模型架构 | RL 算法 | AIME24 ( Pass@1 ) | AIME25 ( Pass@1 ) | MATH500 ( Pass@1 ) |
DeepSeek-R1-Distill-1.5B | Original | 30.6% | 24.8% | 84.4% |
PPO | 34.8% | 24.4% | 86.9% | |
PPO+REPRO | 36.3% ( +1.5 ) | 27.7% ( +3.3 ) | 87.7% ( +0.8 ) | |
GRPO | 32.9% | 25.3% | 86.0% | |
GRPO+REPRO | 36.0% ( +3.1 ) | 26.5% ( +1.2 ) | 87.1% ( +1.1 ) | |
Qwen3-1.7B | 46.8% | 36.1% | 93.0% | |
47.3% | 93.4% | |||
GRPO+EPRO | 49.8% ( +2.5 ) | 37.9% ( +3.1 ) | 94.1% ( +0.7 ) |
并且,这种改进不仅出现在数学任务,在科学和代码任务上也有类似表现,表明 RePro 具备良好的泛化能力。
领域 | 基准测试 | 基线 ( GRPO ) | 绝对提升 | |
科学推理 | GPQA-Diamond | 34.5% | 37.0% | +2.5% |
代码推理 | MBPP | 62.5% | 65.4% | +2.9% |
LiveCodeBench | 15.2% | 18.4% | +3.2% |
除了准确率,它还提升了哪些关键指标?
推理 token 数量显著减少
随着训练进行,RePro 模型生成的平均 token 数量稳步下降:

这意味着模型学会了少说废话,在更短的路径内给出更准的答案。
回溯行为(Backtracking)减少
Re+Pro 模型在推理过程中出现的 " 反复检查 " 或 " 思路绕圈子 " 的比例显著下降。

简明扼要的推理才是好推理
RePro 的成功证明了:更好的推理不一定需要更长的 CoT,而是需要更 " 有效 " 的优化路径。
通过将 Optimization Lens(优化视角)引入后训练阶段,RePro 为解决 Long CoT 的效率瓶颈提供了一个优雅且通用的解法。它告诉大模型:不仅要算对,还要算得漂亮。
论文:https://arxiv.org/abs/2512.01925
Github:https://github.com/open-compass/RePro
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦