1 月 16 日,美团发布 LongCat-Flash-Thinking-2601 模型,并宣布开源。根据评测数据显示,新模型在 Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平。
在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了 Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持 " 重思考 " 模式,可同时启动 8 个 " 大脑 " 执行任务,确保思考周全、决策可靠。

LongCat-Flash-Thinking-2601 的平均性能比较
具体来看,当遇到高难度问题时,新模型会把思考过程拆分成 " 并行思考 " 和 " 总结归纳 " 两步进行。
并行思考阶段,与人类面对难题会同时尝试多种解法相似," 重思考 " 模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。
除此之外,LongCat 团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让 LongCat-Flash-Thinking-2601 实现了 " 想清楚再行动 " 的结果。
对于新模型的技术思路,LongCat 团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实 " 战场 " 可能会掉链子。而基于 " 环境扩展 + 多环境强化学习 " 核心技术,团队为模型打造了多样化的 " 高强度练兵场 ",构建了多套高质量训练环境,并在每套环境中集成 60 余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。


