原来 AI 也在水字数。
大模型的思维链越长,推理能力就越强?谷歌 Say No ——
token 数量和推理质量,真没啥正相关,因为 token 和 token 还不一样,有些纯凑数,深度思考 token才真有用。
新研究抛弃字数论,甩出衡量模型推理质量的全新标准DTR,专门揪模型是在真思考还是水字数。

基于 DTR,还提出了Think@n 策略,让 GPT-OSS、DeepSeek-R1 等推理模型实现准确率不降、算力成本直接砍半的效果。
长逻辑不等于好推理
长期以来,一个比较常见的观点是思维链越长越牛。
这种思路的逻辑也比较直接,推理步骤多 = 思考更充分 = 答案更准。
于是不少研发者也为了追求长推理轨迹开始堆算力。
谷歌的研究团队在 AIME2024/2025、HMMT 2025、GPQA-Diamond 四个数据集上,测了 GPT-OSS、DeepSeek-R1、Qwen3 等 8 个模型变体;
结果发现,token 长度和准确率的平均相关系数是 -0.54 ……负相关。

也就是说,在某些情况下,思维链越长,推理越容易跑偏,甚至还会陷入逻辑死循环或者过度推理。
那么问题来了:如果长度靠不住,那该怎么判断模型是不是在真思考?
谷歌这次的视角比较有意思,不看表面输出,直接监听模型每一层的内心戏。
研究发现,模型生成的 token 其实可以分成两类:
功能性词汇,比如 " 和 "" 是 "" 的 " 这类,模型在浅层网路就快速确定了,是不需要深度思考的敷衍词;
深度思考词,比如 " 运算结果是 10"" 选项为 A",这类词在深层网络中还会被反复修正,预测分布持续变化,体现模型是真在琢磨问题。
团队用 JSD 衡量各层预测分布的差异,如果一个 token 的预测直到深层网络才稳定下来,那就被判定为深度思考词。

在这个基础上,他们提出了Deep Thinking Ratio,即深度思考词在完整生成序列中的占比。
这个比例越高,说明模型越聚焦核心推理,没有在无意义内容上消耗算力。
真 · 深度思考降本增效
在四个推理测试集上,DTR 与推理准确率的相关系数达到 0.82。
相比于 token 长度的 -0.54,DTR 更能反映推理质量。

谷歌还基于 DTR 顺势推出了 Think@n 策略,能在推理初期就识别低质量废话,将计算资源集中在真正有深度的样本上。
具体为为每个问题采样多个推理样本,仅通过 50 个 token 的短前缀快读估算 DTR 值,筛选出前 50% 的高质量样本,再进行多数投票得出答案;
这样,低 DTR 的低质量样本在推理初期就被终止生成,直接砍掉无意义的 token 消耗。
在多款主流模型的测试中,Think@n 推理准确率与传统策略持平甚至略高。
比如 GPT-OSS-120B-medium 在 AIME 2025 数据集上准确率达 94.7%,高于传统策略的 92.7%;
还将算力成本直接削减近一半,推理 token 消耗从 355.6k 降至 181.9k,做到了性能不降、成本减半。

这项研究的第一作者 Wei-Lin Chen 是弗吉尼亚大学计算机博士,专注于 LLM 推理衡量及评估者有效性等研究方向,曾在谷歌担任学生研究员。

共同一作 Liqian Peng 为中科大校友,现在谷歌担任研究工程师。

指导作者孟瑜是弗吉尼亚大学计算机助理教授,研究方向包括训练范式、数据与推理效率及表征基础等方面,此前还和 NLP 领域的顶尖学者陈丹琦有过合作。

看来大模型推理也不兴水字数了,真 · 深度思考才能降本增效。
论文地址:https://arxiv.org/abs/2602.13517
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦