不是所有token都平等！谷歌提出真·深度思考：思维链长深度推理

原来 AI 也在水字数。

大模型的思维链越长，推理能力就越强？谷歌 Say No ——

token 数量和推理质量，真没啥正相关，因为 token 和 token 还不一样，有些纯凑数，深度思考 token才真有用。

新研究抛弃字数论，甩出衡量模型推理质量的全新标准DTR，专门揪模型是在真思考还是水字数。

基于 DTR，还提出了Think@n 策略，让 GPT-OSS、DeepSeek-R1 等推理模型实现准确率不降、算力成本直接砍半的效果。

长逻辑不等于好推理

长期以来，一个比较常见的观点是思维链越长越牛。

这种思路的逻辑也比较直接，推理步骤多 = 思考更充分 = 答案更准。

于是不少研发者也为了追求长推理轨迹开始堆算力。

谷歌的研究团队在 AIME2024/2025、HMMT 2025、GPQA-Diamond 四个数据集上，测了 GPT-OSS、DeepSeek-R1、Qwen3 等 8 个模型变体；

结果发现，token 长度和准确率的平均相关系数是 -0.54 ……负相关。

也就是说，在某些情况下，思维链越长，推理越容易跑偏，甚至还会陷入逻辑死循环或者过度推理。

那么问题来了：如果长度靠不住，那该怎么判断模型是不是在真思考？

谷歌这次的视角比较有意思，不看表面输出，直接监听模型每一层的内心戏。

研究发现，模型生成的 token 其实可以分成两类：

功能性词汇，比如 " 和 "" 是 "" 的 " 这类，模型在浅层网路就快速确定了，是不需要深度思考的敷衍词；

深度思考词，比如 " 运算结果是 10"" 选项为 A"，这类词在深层网络中还会被反复修正，预测分布持续变化，体现模型是真在琢磨问题。

团队用 JSD 衡量各层预测分布的差异，如果一个 token 的预测直到深层网络才稳定下来，那就被判定为深度思考词。

在这个基础上，他们提出了Deep Thinking Ratio，即深度思考词在完整生成序列中的占比。

这个比例越高，说明模型越聚焦核心推理，没有在无意义内容上消耗算力。

真 · 深度思考降本增效

在四个推理测试集上，DTR 与推理准确率的相关系数达到 0.82。

相比于 token 长度的 -0.54，DTR 更能反映推理质量。

谷歌还基于 DTR 顺势推出了 Think@n 策略，能在推理初期就识别低质量废话，将计算资源集中在真正有深度的样本上。

具体为为每个问题采样多个推理样本，仅通过 50 个 token 的短前缀快读估算 DTR 值，筛选出前 50% 的高质量样本，再进行多数投票得出答案；

这样，低 DTR 的低质量样本在推理初期就被终止生成，直接砍掉无意义的 token 消耗。

在多款主流模型的测试中，Think@n 推理准确率与传统策略持平甚至略高。

比如 GPT-OSS-120B-medium 在 AIME 2025 数据集上准确率达 94.7%，高于传统策略的 92.7%；

还将算力成本直接削减近一半，推理 token 消耗从 355.6k 降至 181.9k，做到了性能不降、成本减半。

这项研究的第一作者 Wei-Lin Chen 是弗吉尼亚大学计算机博士，专注于 LLM 推理衡量及评估者有效性等研究方向，曾在谷歌担任学生研究员。

共同一作 Liqian Peng 为中科大校友，现在谷歌担任研究工程师。

指导作者孟瑜是弗吉尼亚大学计算机助理教授，研究方向包括训练范式、数据与推理效率及表征基础等方面，此前还和 NLP 领域的顶尖学者陈丹琦有过合作。

看来大模型推理也不兴水字数了，真 · 深度思考才能降本增效。

论文地址：https://arxiv.org/abs/2602.13517

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代