智东西 前天
美团王兴,又开源一款大模型!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 云鹏

美团龙猫大模型,现在会思考了!

智东西 9 月 22 日报道,最近,美团在 AI 开源赛道上在猛踩加速。今天,在开源其首款大语言模型仅仅 24 天后,美团又开源了其首款自研推理模型 LongCat-Flash-Thinking。

与其基础模型 LongCat-Flash 类似,效率也是 LongCat-Flash-Thinking 的最大特点。美团在技术报告中透露,LongCat-Flash-Thinking 在自研的 DORA 强化学习基础设施完成训练,直接将训练速度提升到原来的 3 倍还多,增幅超过 200%。该模型重点优化了形式推理和 Agent 推理任务,使用工具后推理效率很高,例如,可将 AIME-25 基准测试中的平均 token 消耗减少 64.5%。

LongCat-Flash-Thinking 在多领域基准测试中表现出不俗的实力:

在通用问答、数学推理、通用推理的相关测试中,它和 GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、

Qwen3-235B-A22B-Thinking-2507 等基本打平;

LongCat-Flash-Thinking 还在安全、形式化定理证明等领域的多项基准测试中,大幅度领先上述 4 款推理模型,并在权威 Agent 工具调用基准测试 τ²-Bench 中,超越除了 GPT-5-Thinking 外的所有参评模型。

目前,LongCat-Flash-Thinking 模型已经开源至 GitHub、Hugging Face 等平台,相关技术报告也同期发布,用户也可在体验链接中直接使用。不过,在实际体验中,模型推理和回答长度往往会超出体验链接里的限制,导致答案不完整。

开源地址:

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

https://github.com/meituan-longcat/LongCat-Flash-Thinking

体验链接:

https://longcat.chat/

一、靠课程学习逐步构建能力,Agent 和形式化推理能力获补强

在模型预训练阶段,LongCat 团队采用了课程学习的方式,让模型先打基础,再专项突破,最终构建出覆盖广度与深度的推理能力。

LongCat-Flash-Thinking 是在 LongCat-Flash 的基础上训练而来的,经历了推理增强的中期训练(Mid-training)和面向推理的有监督微调(SFT)。

研究团队特别构建了一个高难度的推理训练集,涵盖数学、物理、化学及编程问题,并通过数据比例控制,确保模型既能强化逻辑推理,又不丢失通用能力。

实验表明,这一阶段显著拓宽了模型的 " 推理边界 ":在 AIME、BeyondAIME 和 LiveCodeBench 等基准上,单步准确率和高采样准确率均有大幅提升。

进入 SFT 微调阶段,LongCat-Flash-Thinking 的指令遵循和专业领域推理能力得到进一步提升。这一步骤特别强调三大方向:

1、一般推理:LongCat 团队整合跨学科高质量问题与答案,涵盖 STEM、编程、通用问答以及逻辑推理,利用拒绝采样与模型评审保证训练数据的准确性和挑战性。

2、形式化推理:该团队还设计了一套全新的基于专家迭代框架的数据合成方法,利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。

3、Agentic 推理:LongCat 团队提出了创新性的 " 双路径推理框架 "。该框架能够比较模型在 " 有工具 " 和 " 无工具 " 条件下的表现,筛选出仅依赖工具才能解决的高质量问题。

随后,系统自动合成多样化的解题轨迹,从简单调用到复杂多步流程,并通过严格评审确保逻辑一致性和工具使用完整性。最终,轨迹被标准化并按复杂度分层,用于课程训练,帮助模型在真实场景中更好地学习和发展稳健的工具使用能力。

这种中期训练、推理微调的两段式体系,帮助 LongCat-Flash-Thinking 在推理任务中实现性能提升,也为后续的强化学习做好准备。

二、三管齐下优化强化学习,自研 DORA 框架提效超 200%

强化学习中,LongCat-Flash-Thinking 采用了一套 " 三管齐下 " 的方案,从系统、算法和奖励的角度,提升强化学习的效率和稳定性。

在系统设计中,LongCat 团队构建了名为 DORA 的分布式 RL 框架,这是 RL 训练的基石。DORA 支持异步训练与灵活的加速器调度,既保证稳定性,又提升效率。

DORA 通过流式架构让已完成的响应立即进入训练,而不会被最长输出拖慢;通过多版本策略保证同一响应由同一模型版本完成,避免推理片段间的不一致;再结合弹性角色调度,让不同算力设备可灵活切换角色,实现近乎零闲置。

这一机制在大规模算力集群上展现了较高的效率:在数万张加速卡上,LongCat-Flash 的 RL 训练速度达到传统同步方式的 3 倍以上,FLOPs(Floating Point Operations,浮点运算数)的投入约为预训练阶段的 20%。

算法层面,团队则对经典的 PPO 方法进行改良。异步训练常因推理引擎与训练引擎的数值差异,或因旧版本策略生成的数据过多而导致模型收敛不稳。

为此,研究人员引入了截断重要性采样来缓解引擎差异带来的误差,并设计了裁剪机制,对正负样本分别设置不同阈值。这些细节调整,大大提高了推理任务下的稳定性。

奖励机制是 RL 的方向盘。对于写作、问答等无法直接验证的任务,团队训练了判别式奖励模型,基于人机联合标注数据,学会判断优劣偏好。

而在数学与编程等可验证场景,则引入了生成式奖励模型(GenRM),它不仅能判断对错,还能给出推理链路,做到有理有据。在编程任务中,团队还搭建了分布式沙箱系统,支持数百万次并发代码执行,覆盖 20 多种编程语言。

最后,LongCat 团队提出了一个三阶段的训练配方:领域平行训练、模型融合、通用 RL 微调。LongCat 团队先分别训练数学、编程、智能体等专家模型,再通过参数融合技术合并为统一大模型,最后用多样化数据进行通用微调,避免融合后的性能退化,确保安全性、泛化性和实用性。

融合后的模型性能优于专家模型

三、MATH-500 得分接近满分,用上工具后性价比更高

LongCat-Flash-Thinking 在多领域的基准测试中表现出色。

在通用能力上,LongCat-Flash-Thinking 在 MMLU-Redux 上拿下 89.3% 的成绩,与业内多款顶级开源模型处在同一水准,但与 OpenAI-o3 相比仍有差距。

数学推理是该模型的亮点之一。其在 MATH-500 中取得 99.2% 的高分,几乎达到满分水平。在更具挑战性的 AIME 与 HMMT 等竞赛级任务中,同样展现出接近甚至超越 GPT-5 与 Qwen3 的表现,凸显其复杂多步推理的强大能力。

在逻辑与一般推理方面,该模型在 ARC-AGI 上达到 50.3%,超过了 OpenAI-o3 与 Gemini 2.5-Pro。同时,它在解谜任务 ZebraLogic 上得分高达 95.5%,并在数独测试 Sudoku-Bench 上远超大部分模型,显示出较强的结构化推理能力。

编程能力方面,LongCat-Flash-Thinking 在动态编程测试 LiveCodeBench 中取得 79.4% 的分数,紧追 GPT-5,远超开源同类模型。

值得注意的是,LongCat-Flash-Thinking 模型在工具增强推理能力上表现出色。例如,它在模拟预定飞机票的 τ²-Bench-Airline 中,实现 67.5% 的最佳成绩,并在 SWE-Bench、BFCL 等任务上保持较强的竞争力。

启用外部工具后,其在 AIME-25 基准测试中的准确率保持不变,但平均 token 消耗减少近 65%,验证了智能体系统在效率与性能间实现平衡。

在定理证明领域,LongCat-Flash-Thinking 在 MiniF2F 测试中得分达 67.6%,比次优模型高出 18%,奠定了其在形式化数学推理上的领先地位。

最后,在安全性上,LongCat-Flash-Thinking 在有害内容、犯罪、虚假信息及隐私四类风险测试中均拿下安全性最高分。

结语:切入真实场景,美团探索推理大模型落地路径

LongCat 团队称,凭借 LongCat-Flash-Thinking 的开源,他们希望进一步推动高效 RL 训练、原生 Agent 推理等方面的研究。

从论文的技术细节中,我们也能看到,LongCat 有针对性地提升了模型在工具使用、指令遵循和安全性等方面的表现。

结合美团最近在面向消费者的 Agent 产品、AI 搜索产品等领域的动态,不难预见,这些新模型或将针对性地服务于美团自身业务,带来更智能的用户体验。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

美团 龙猫 开源 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论