王兴一鸣惊人！美团首个开源大模型追平DeepSeek-V3.1

没想到啊，最新 SOTA 的开源大模型……

来自一个送外卖（Waimai）的——有两个 AI，确实不一样。

这个最新开源模型叫：Longcat-Flash-Chat，美团第一个开源大模型，发布即开源，已经在海内外的技术圈子里火爆热议了。

一方面是因为成绩亮眼：

它在部分 benchmark 上，比如 Agent 工具调用、指令遵循的表现超过 DeepSeek-V3.1、Qwen3 MoE-2507，甚至比闭源的 Claude4 Sonnet 还要好。

编程能力也值得关注，在 TerminalBench 上，和公认的 " 编程之王 "Claude4 Sonnet 不相上下。

比如非常流行的小球氛围编程测试，LongCat 编写的程序，运行起来效果是这样的：

另一方面是技术报告中透露出不少美团对于大模型的理解，包括 DSMoE、MLA、动态计算、Infra 等等。

我觉得这是中国大模型里最讲得详细的论文了，甚至超过 Kimi、GLM，特别是在建模和 infra 方面。

要知道，这可是一家 " 外卖公司 " 啊（手动狗头），做的模型都比 Meta 好了。

而且不光是模型性能好，技术报告里还介绍了一系列新发现，比如：

采用新路由架构，调用真正需要的专家模型，使计算更少；

通过将 MoE 和密集层的通信重叠执行，优化模型通信效率；

使用新方法来迁移超参数而不是 muP

……

以及无论是在总参数量还是激活参数上，Longcat-Flash-Chat 都比 DeepSeek-V3.1 和 Kimi-K2 更少。

具体来看——

" 零计算专家 " 让吞吐大幅提升

此次开源的 Longcat-Flash-Chat 是一个 560B 的 MoE 模型，整体架构采用 " 零计算专家 "（Zero-computation Experts）与 Shortcut-connected MoE 双重设计。

它通过根据上下文重要性为每个 token 动态激活 18.6B – 31.3B 参数，并让前一块密集 FFN 与当前 MoE 的通信阶段并行执行，大幅提升训练与推理吞吐。

相比于同为 MoE 架构的 DeepSeek-V3.1（671B/A37B）和 Kimi-K2（1T/A32B），Longcat-Flash-Chat 都拥有相对更少的总参数量和激活参数量。

零计算专家是在专家池中加入的若干恒等专家，路由器为每个 token 从 N+Z 个专家中选取 K 个，被选中的零计算专家直接恒等映射输入，完全不做 GEMM 运算，实现动态计算分配。

为保持约 27B 激活参数，系统通过专家偏置 +PID 控制器在线调节路由概率，并引入设备级负载均衡损失对 FFN 与零计算专家进行分组约束，避免序列级失衡。

Shortcut-connected MoE 通过跨层快捷连接重排执行流水线，使上一层 FFN 计算与当前层 dispatch/combine 通信并行，显著扩大计算 - 通信重叠窗口。

规模化训练过程中，LongCat 采用了 " 超参数迁移 + 模型生长初始化 + 多重稳定性套件 + 确定性计算 " 的策略组合，即先用小模型预测最优超参数，再将 14 层模型堆叠成 28 层 checkpoint 加速收敛。

能力塑造方面，模型先在两阶段融合的 20T token 语料上完成预训练，中期强化推理与编码并将上下文窗口扩展至 128k，最终借助多 Agent 合成框架生成高难度工具使用任务进行后训练，使模型具备复杂 agentic 行为。

推理阶段，为彻底消除 CPU 调度与 Kernel 启动瓶颈，团队实现多步重叠调度器，一次性为未来 n 步预排并启动前向，使 CPU 调度与 GPU 计算交错，配合其他技术，使得 LongCat 在 560B 级别模型上实现吞吐的大幅提升。

最终，LongCat-Flash 在多类权威基准中处于第一梯队，在非思考大模型中与 DeepSeek-V3.1 等模型相当甚至更优。

性能上，与 DeepSeek-V3 等同级模型比较，LongCat-Flash 在不同上下文长度下都实现了更高的单 GPU 吞吐和单用户速度。

560B 参数的 LongCat-Flash 在上万个加速卡上完成超过 20Ttoken 预训练仅用 30 天，训练期间可用率 98.48%，单张 H800GPU 生成速度超过 100 tokens/s，成本约 0.7 美元 / 百万输出 token。

实测美团 LongCat 大模型

那么接下来，就来看看 LongCat 的真实表现，我们跳过简单的基础问答，直接上数学题。

这道题出自今年的全国一卷。这里题目是以文本形式输入给模型的，且公式转换成了 LaTeX 格式。

先看结果，LongCat 的最终答案全部正确：

接下来检查一下具体过程。

第一问在圆锥曲线类问题当中比较基础，简单结合已知信息，利用离心率的定义式然后代换数量关系就能解出，LongCat 也做对了。

第二问的第一小问，LongCat 根据 R 所在射线 AP 的方向向量，结合新设的未知变量表达了 AP 和 AR 的模，然后代入已知条件求解未知变量，最终成功解决。

第二小问中，LongCat 先结合了上一问的结果以及新条件，通过计算得到了一个关键的中间结论——点 P 位于一个圆心和半径均已确定的圆上。

如果想象不到，这里有一个简单图示。

利用该结论，LongCat 对最大距离进行了拆解，并通过代入等方法，最终计算出了正确结果。

接下来是一项综合能力测试，绘制生物学当中光合作用当中卡尔文循环的 SVG 示意图，SVG 是一种用代码表示的矢量图形。

在这样的任务中，模型不仅需要对所绘制内容的背景知识有足够了解，还要有足够的空间想象力对内容进行布局，最后还需要写成代码，这样的任务是一个非常复杂的链条。

言归正传，我们对 LongCat 给出的 SVG 代码进行了可视化，总的来说，LongCat 比较顺利地完成了图示的绘制。

最后是一道迷惑性问题，题目出自 GitHub 上一个名为 Misguided Attention 的 Benchmark。

其中包含了很多经典谜题……的改编版本，考验的就是大模型能不能做到不被表象迷惑。

比如物理学当中的名场面——薛定谔的猫，在这套基准当中，这只猫的 " 猫设 " 被改成了一只死去的猫。

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射，它将释放毒药。一天后，盒子打开。猫还活着吗？

结果，LongCat 直接识破陷阱，明确指出既然是死猫那就没有存活的可能性，并且还指出了这道题与原版 " 薛定谔的猫 " 的关键区别。

而 o3 就没有认真读题，还是按照传统的薛定谔的猫那一套进行的回答。

" 外卖公司 " 怎么在做大模型？

这次引发海外热议的还有一个原因在于美团给他们带来的反差感。

很多人简单粗暴把美团理解为一家外卖公司。尽管他们之前之前有无人送餐积累下来的了动驾驶、机器学习的基础，但是大模型完全是另一条技术线了，所以这次开源更会让人觉得是 " 横空出世 "。

不过梳理美团在大模型浪潮后的 AI 动向，这次模型开源也就不那么意外了。

2023 年，王慧文振臂一呼自带 5000 万美元成立光年之外，并招揽一众 AI 领域顶级人才团队加盟。后续由于王慧文个人健康原因，好兄弟王兴兜底，美团于是接手光年之外，现有团队将继续研发大模型。

同年，由美团内部独立 AI 团队 GN06 开发的 AI 情感陪伴产品 Wow 上线，这也是美团发布的第一个独立 AI 应用。

2024 年 4 月，病休的王慧文以顾问身份回归美团，11 月正式领导 GN06 团队。

GN06 在美团的定位是一个相对独立的 AI 团队、不隶属于任何事业群，专注于探索主营业务之外的创新 AI 应用。

2024 年他们还推出了一个 AI 图像生成应用 " 妙刷 "。

在 2024 年 6 月，GN06 的招聘需求明显增加，范围覆盖前端、客户端、后端、产品、运营、商分等。

2024 财年业绩发布会上，美团还正式明确了 " 主动进攻 " 的 AI 策略。

美团 CEO 王兴首次阐述了公司的 AI 战略布局，主要通过三层架构推动技术落地：

AI at Work：目标是利用 AI 工具提升超过 10 万名员工的工作效率。

AI in Products：旨在用 AI 改造现有产品并创建原生 AI 应用。

Building LLM：持续投入资源自研大模型。

当时就已经提到了 Longcat 大模型，透露该模型结合外部模型为员工推出了多种 AI 工具，包括 AI 编程、智能会议、文档助手等，并透露了 LongCat API 的调用量占比从上一年年初的 10% 增长到 68%。从这个信息推断，Longcat 在至少在 2024 年初就已经可以落地应用。

另外在研发投入上，2024 年美团投入 211 亿搞研发，规模仅次于华为、腾讯和阿里巴巴。过去 5 年研发投入突破 1000 亿元。

产品结合方面，美团测试推出了问小袋、米鲁等 AI 智能助手，用于餐饮推荐、问答交互等。

在这种战略下，2025 年美团在 AI 方向的动作更加明显起来。

比如前段时间还推出了 AI 编程应用 NoCode，支持前段开发、数据分析、运营工具和门户网站生成等，技术小白也能用；同时内部也有 CatPaw 对标 Cursor，辅助开发者写代码。

总体来看，以美团的研发储备，开源一个大语言模型并不意外。

不过也不同于 AI 公司，美团的 AI 布局更多以业务场景驱动为核心，注重在实际应用中的落地效果。

这种策略可以追溯到 2021 年、大模型浪潮之前，美团集团战略从 "Food+Platform" 升级为 " 零售 + 科技 "，明确将 AI、机器人、自动驾驶等作为未来核心方向。

比如在更加早期的具身智能领域，美团已多次出手，投资了宇树、星海图、银河通用、它石智航等头部梯队公司。

你用来拼好饭的美团，确实不是单纯送外卖的美团。

虽然外卖大战依然火热，但用 AI 的视角审视美团，也是时候了。

试用地址：https://longcat.chat

huggingface：https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

github：https://github.com/meituan-longcat/LongCat-Flash-Chat

x/twitter：https://x.com/Meituan_LongCat/status/1961827385667690965

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签