量子位 前天
UC伯克利:让推理模型少思考,准确率反而更高了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

让推理模型不要思考,得到的结果反而更准确?

UC 伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。

例如在定理证明任务当中," 不思考 " 模式仅使用 30% 的 Token,就能实现和完整思考一样的准确率。

特别是施加 Token 限制之后," 不思考 " 模式的效果变得更加明显。

这究竟是怎么一回事呢?来看下 UC 伯克利发表的论文。

跳过思考,推理模型反而更强了

论文的研究目的,是比较显式思考过程(Thinking)和跳过思考过程(NoThinking)的效果差异,并在不同约束条件下评估这两种方法的表现。

研究使用 DeepSeek-R1-Distill-Qwen-32B 作为主要实验模型,该模型通过在 Qwen-32B 基础上使用 DeepSeek-R1 生成的数据进行蒸馏得到。

为了确保结果的可靠性,研究同时选择了 Qwen-32B-Instruct 作为基线模型,并在 7B 和 14B 规模的相同架构模型上进行了验证实验。

在数据集的选择上,研究力求全面覆盖不同类型的推理任务:

在数学问题方面,既包含了 AIME 2024、AIME 2025、AMC 2023 等标准难度的测试集,也包含了更具挑战性的 OlympiadBench 数学子集;

在编程能力评估方面,使用了持续更新的 LiveCodeBench v2 版本;

在定理证明领域,则通过 MiniF2F 测试形式化数学推理能力,通过 ProofNet 评估逻辑和定理证明能力。

实验首先进行了基础性能评估,也就是在不限制 token 的情况下比较三种方法的表现。研究团队详细记录了每种方法在不同 k 值下的 pass@k 性能表现和 token 使用量。

结果显示,在无预算限制的情况下,NoThinking 在定理证明任务上能够以 30% 的 token 用量达到与 Thinking 相似的性能,两种方法都明显优于基线模型。

在其他任务上,虽然 NoThinking 的初始 pass@1 性能较低,但随着 k 值增加会逐渐追平 Thinking 的表现,同时 token 使用量减少

随后,实验引入了预算强制,通过设置 token 限制来进行对照实验。

具体来说,当模型达到预设的 token 预算时,系统会强制其生成最终答案,如果此时模型仍在思考框内,则会在最终答案标签前添加结束思考标记。

研究分别在低预算(约 3000tokens 以下)和高预算(约 3500tokens)两种场景下进行了详细测试。

在预算受限的场景下,NoThinking 在低预算情况下(<3000 tokens)完全优于 Thinking,这种优势会随着 k 值的增加而扩大。

在高预算场景下(~3500 tokens),尽管 Thinking 在 pass@1 上略有优势,NoThinking 从 k=2 开始就展现出更好的性能。

在并行扩展测试中,研究根据任务特性采用了不同的评估方法。

对于有完美验证器的任务(如形式定理证明),可以直接使用验证器选择最佳答案,并详细记录延迟和 token 使用量;

对于没有验证器的任务,研究实现了多数投票机制和基于置信度的选择策略,通过实验比较了不同选择策略的效果。

对于具有验证器的任务,NoThinking 可以在将延迟降低至 1/7、token 使用量减少至 1/4 的同时,保持与传统方法相似的准确率。

在没有验证器的任务中,比如 AMC 2023 和 OlympiadBench,NoThinking 甚至超越了完整版 Thinking 的表现,同时可将延迟降低至 1/9。

为了避免实验结果受到数据污染的影响,研究团队专门使用了新发布的 AIME 2025 数据集进行验证。

结果作者发现。相同的性能模式在新旧数据集上都能稳定重现,这证实了研究发现反映了模型的真实行为特征。

大模型 " 思考过程 " 引热议

Hacker News 上,有人表示这项研究让其对大模型的思考有了新的认识:

过去我认为大模型 " 思考 " 很有用,是因为它可以把更多的概念带到上下文当中,但现在看似乎不是?

还有人想到了 Claude 厂商 Anthropic 前些天发表的报告,其中指出大模型输出的 " 思考过程 " 不一定代表其真实想法。

这份报告的实验发现,Claude 3.7 Sonnet 仅在 25% 的情况下在其思维链中提及收到的提示信息,DeepSeek R1 则为 39%,意味着大多数情况下模型不会忠实反映其真实决策过程。

Anthropic 的这份报告,引起了针对大模型 " 思考过程 " 的热烈讨论。

有人表示,思维链有效的关键是产生了更多用于 " 思考 " 的计算,但如果用它来展示模型工作过程,那只不过是额外的上下文。

但也有人认为 Anthropic 的研究并没有切中问题要害,因为模型的训练过程就是为了获得正确答案而优化,不能指望这样的训练方式能够让模型准确说出推理过程。

作者简介

本论文第一作者是 UC 伯克利博士生马文洁,导师是 Matei Zaharia 副教授和 Sewon Min 助理教授研究重点是理解和提升语言模型的推理能力,以及测试时计算。

马文洁本科毕业于南京大学计算机学院,期间曾参加该学院的 PASCAL(编程语言与统计分析)研究组。

另一名华人作者何静轩,目前在 UC 伯克利从事博士后研究,研究兴趣为机器学习和计算机安全,合作导师是宋晓冬(Dawn Song)教授。

何静轩博士和本科分别毕业于苏黎世联邦理工学院和浙江大学。

另外,UC 伯克利博士生 Charlie Snell、Tyler Griggs,以及一作马文洁的两名导师也参与了此项研究。

论文地址:

https://arxiv.org/abs/2504.09858

参考链接:

[ 1 ] https://www.anthropic.com/research/reasoning-models-dont-say-think

[ 2 ] https://news.ycombinator.com/item?id=43572374

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

伯克利 效果 数学 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论