独家内幕:美团如何用5万张国产卡训出“龙猫”万亿级模型?

智东西

作者 | 李水青

编辑 | 漠影

智东西 7 月 2 日报道，最近几个月，一个名为 "Owl Alpha" 的神秘模型持续霸榜 OpenRouter。它调用量长期位居全球前三，在Hermes、Claude Code 和 OpenClaw几大 Agent 模型中分别位列第一、第二和第三，不少开发者将其称为今年最令人意外的一匹 " 黑马 "。

▲ Owl Alpha 位列 OpenRouter 中 Hermes 调用模型第一

直到 6 月 30 日，这个神秘模型才揭开面纱：它是美团最新发布的LongCat-2.0（龙猫 2.0），一个总参数量1.6 万亿、每 token 激活约480 亿参数的 MoE 大语言模型。

从官方基准测试和智东西实测反馈来看，LongCat-2.0 在原生 Agent 能力、编程以及适配主流编程工具方面，已经能够接近全球第一梯队水平。并且受益于 Cache（缓存）命中免费的策略，Token plan 包的 Tokens消耗速度远低于同尺寸模型。

相比榜单成绩，更值得关注的是，LongCat-2.0 是国内首个完全依靠国产算力完成训练与推理全流程的万亿参数模型，峰值训练规模超过5 万张国产算力卡，是迄今为止国产算力平台上规模最大的训练任务。

过去几年，行业一直在追问：国产算力究竟能不能支撑世界级大模型训练？LongCat 团队给出的答案是肯定的。

近日，智东西结合多位接近项目人士、产业信源以及相关技术资料，试图还原这场持续三年的国产算力实验。

一、三年前，一群人做了一个 " 头铁 " 的决定

把时间拨回 2023 年初，ChatGPT 发布后国内 AI 团队疯狂抢购算力，A100 一卡难求，GPU 供给进入极度紧缺状态。

侯龙（化名）在美团龙猫团队长期负责训练相关工作，从 0 到 1 参与了 LongCat-2.0 的诞生。

据他透露，2023 年上半年，团队内部开始认真讨论一个方向：能不能用国产算力做大模型训练？这个想法最初只是 " 随口一提 "，但后来越想越觉得并非不可能。

彼时，国产算力生态尚不成熟，工具链薄弱，成功案例稀缺。行业的普遍共识是 " 国产卡只能做推理 "。但 LongCat 团队不这么看。

"大模型训练不是玄学，也不是黑盒，它只是一个复杂度极高的科学系统工程。" 一位知情人士也向智东西表示。龙猫内部分析是：大模型算子个数相对有限，适配工作量比想象中更聚焦。CUDA 生态的壁垒建立在通用性和丰富性上，但如果目标收敛到大模型训练，这个壁垒并没有看上去那么不可逾越。只要硬件精度没有问题，就不存在原理上讲不通的障碍。

当时，这个团队的成员主要是做过一些搜广推、CV、语音类小模型的训练，并没有训练大模型的经验，但在机器学习 Infra 领域已有长足的积累。" 上述人士称。

团队将判断向上沟通后，快速得到了公司明确支持。最终决定：从基座模型建设伊始就同步布局国产算力。用侯龙的话说，" 团队从上到下没有一个人说‘行不通、我不用’，大家都是建设性地想办法，看怎么能把这个事做成。"

" 我们还是挺头铁的。" 在侯龙看来，" 行业认为不可能的事，反而是一次证明自己的机会。"

二、2560 卡到 5 万卡，一场不断踩坑的工程长征

LongCat 并不是一开始就站在 5 万卡的规模上。

据侯龙介绍，团队的国产算力训练经历了清晰的渐进扩容路径：2023 年 7 月，其正式启动国产算力适配，与算力厂商建立周会机制和高频技术交流；9 月，团队成建制投入验证适配工作，从单算子验证到端到端打通，一步一步推进。

第一个关键里程碑出现在2024 年春节前后。团队将端到端训练跑通，第一个 Loss 数值出来，和主流芯片结果非常接近。那一刻，工程上基本确认这条路走得通。用侯龙的原话：" 那个时候，包括工程、算法在内的所有人，对国产算力能不能做训练已经没有怀疑了，剩下的无非是性能和性价比的问题。"

第二个里程碑是2024 年 7 月。一个超过 16000 卡的国产算力集群交付给团队。拿到集群那天，大家本来说搞到 12 点就回家，但总觉得还能再往前走一步，" 一不小心就到了早上四五点钟，夏天天亮得早，我还拍了一张日出的照片。" 另一位亲历者回忆道。不过那天晚上并没有真正跑通，真正的端到端跑起来是在一周之后。作业正常跑起来的那一刻，几个同学还兴奋地合影留念。

从千卡到万卡再到 5 万卡，每跨越一个数量级，都会遭遇完全意想不到的问题。

"万卡集群第一次启动时，调度系统根本起不来。" 上述亲历者透露，" 整个作业的内存总和超过了整数的上限，系统直接显示不出来。" 这是基础设施层面从未遇到过的场景，整个系统最初的设计压根不是为了这个量级的作业准备的。

还有一类更隐秘的问题。到了几万卡的规模，团队发现了 "比特翻转"，硬件在计算过程中，电路可能随机出现比特翻转，导致数值计算错误。它不是稳定必现的，也很难归因为硬件制造缺陷，本质上是一个物理规律：当规模足够大，再低的概率都会暴露出来。小规模训练时根本不知道有这个东西存在，直到某个万卡级别训练过程中，出现了数值对不齐的问题，深入追查后才意识到是比特翻转导致的。团队后来去翻行业里的技术报告，发现只有 Google 的论文里提过一小段，其他厂商几乎没有公开讨论过这个问题。

稳定性是首要面对的硬骨头。大模型训练是同步训练，这意味着所有卡必须同时正常工作、步调一致。一张卡出问题，整个作业就会挂掉。几万张卡同时不出问题的概率，会随规模增加呈指数级下降。

团队的做法是两条腿走路：一是每次故障都坚持找到根本原因，硬件故障也好、软件 bug 也好、参数配置问题也好，逐一归因并做针对性修复；二是不指望不出问题，而是追求出了问题之后能快速发现、快速恢复。最终，团队建立了一整套自动感知和恢复机制，整个容错过程不需要人工介入。

围绕稳定性、正确性和效率三条主线，团队重新构建了一套超大规模训练体系。据技术资料显示，通过自动重调度和容错恢复，训练稳定性超过 92%，月均日故障率相比最初降低了 70%；通过确定性算子实现 Bitwise 一致性训练；通过 ScMoE 架构和 Zero Bubble Pipeline 等优化，将硬件浮点计算利用率提升了超 5 成。

5 万卡级别的训练，真正的挑战从来不是算力堆砌，而是系统工程。

三、国产算力没有成熟生态，就自己重写一套基础设施

在国产算力平台上做 5 万卡规模的训练，意味着几乎无法依赖现成的软件生态。

据一位曾参与国产算力训练万亿规模模型工作的业内人士介绍，随着训练规模持续扩大，需要重写的其实远不止几个算子，而是整套基础设施。" 可以说，从核心算子、通信框架到调度系统、训练工具链，LongCat 团队应该是在国产硬件之上重新搭建了一遍大模型软件栈。"

对此，侯龙也给予了正面回应，一个典型的例子是算子开发。在成熟生态上，一个算子可能一到两周就能完成；但在国产算力平台上，最初需要一个月以上。" 同样的算子，开发周期差了好几倍，非常痛苦。" 侯龙回忆。包括编程模型、调试工具在内的整个开发体验，早期都不太好用。

但团队没有等，而是在关键算子上选择自研。比如 FlashAttention 反向梯度算子，当时国产平台上有一个 " 确定性 " 实现，但为了做到计算顺序固定，退化成单核顺序执行，耗时比非确定性版本慢了 20 到 70 倍，在生产环境中几乎不可用。LongCat 团队在国产芯片上自研了高性能的确定性算子，最终将性能损失控制在 5% 左右，既保住了确定性，又没牺牲效率。同样的自研还发生在 Scatter 类算子上，原有实现效率极低，团队重新设计了确定性并行算法，将性能提升了数十倍。

这些底层算子的自研，最终使 " 整网确定性训练 " 成为可能，每一步的计算结果都能精确复现，任何一次异常都能被快速定位。在国产芯片工具链尚不完善的阶段，这是排障的刚需。

不过，国产算力的软件生态演进速度很快。据另一位知情人士透露，到了现在，虽然硬件架构不同导致编程范式有差异，但开发效率和调试体验已经没有特别显著的区别。" 尤其是 Agent Coding 出现后，一些相对简单的算子可以用AI 辅助生成，生态壁垒确实比之前低了很多。"

更令人意外的是精度层面的发现。该人士透露，团队以 CPU 的 FP64 精度为基准标杆，对同一计算逻辑在不同芯片上做了对比实测，发现国产算力在部分核心算子上的计算误差甚至低于主流芯片。" 大家天然认为国产算力误差更大，但实测结果恰恰相反。"该人士表示。

从硬件架构上也能找到解释：国产芯片在累加位宽上做得更宽，能保证更高的累加精度。但更值得注意的是一种行业心态，长期以来，行业默认把主流芯片的计算结果作为标准答案，但这并不意味着它就是精度最高的，只是大家习惯了拿它来做参照。LongCat 团队的实测表明，只要计算正确性得到保证，国产芯片并不存在不可跨越的技术鸿沟。

四、模型能力实测，LongCat-2.0 验证了什么？

LongCat-2.0 的意义，并不局限于完成了一次国产算力训练。国产算力训出来的模型，在真实能力上同样经得起检验。

正如前文提到，在匿名上线 OpenRouter 期间，LongCat-2.0 获得了全球开发者社区的广泛验证。同时，其在 6 月 30 日公布的综合评测显示，LongCat-2.0 在编程和通用 Agent 两大场景中均表现优异。

编程方面，LongCat-2.0 在 SWE-bench Pro 得分 59.5，虽然还不及 SOTA 模型 Claude 4.8 和 4.7，但已超过 Gemini 3.1 Pro（54.2）；在 SWE-bench Multilingual 取得 77.3，与 Claude Opus 4.6（77.8）接近持平；在 Terminal-Bench 2.1 真实终端指令交互评测中取得 70.8，展现出稳定的执行与纠错能力。

办公场景方面，LongCat-2.0 在搜索智能体评测集 RWSearch 得分 78.8，生产力场景 FORTE 得分 73.2，BrowseComp 得分 79.9，三项均达到或接近前沿闭源模型水平，验证了多步骤任务规划、复杂工具调用及长程检索执行上的可靠性。

▲ LongCat-2.0 的测评成绩

根据美团官方案例，LongCat-2.0 在 AI SQL Agent 搭建、代码库迁移、儿童 AI 游戏训练场应用开发、3D 交互演示、AI 小说工厂等真实工作场景任务中都能较好完成任务。

▲基于 LongCat-2.0 的数据分析智能体（源自：美团）

而智东西在 Hermes 中实测 LongCat-2.0 后发现，该模型在逻辑推理上表现较好，同时在编程任务上能够有较高完成度，且与 Agent 协同下能实现相对复杂的编程任务。最关键的是，受 Cache（缓存）命中免费的策略影响，其 Tokens 消耗速度远低于同尺寸模型。

具体来看，当我要求 LongCat-2.0 生成一个可交互的 macOS 桌面页面，它不仅能够生成一个十分相似的页面视图，还能生成可以点击的真实可用图标，比如点击文件、计算器、便笺等都能够进入对应的页面。其生成的计算器可以准确地算数，不过文档应用缺少保存选项。

▲ LongCat-2.0 生成的可交互 macOS

当我要求 LongCat-2.0 在 Hermes 上实现一个类似 Google Docs 的协同编辑系统，LongCat-2.0 能够比较顺畅的完成，展现出可靠的编程及 Agent 能力。关键 Token 消耗速度只是其他竞品模型的五成，收费默认打 " 五折 " 就很好评。

▲ LongCat-2.0 生成的类 Google Docs 协同编辑系统

综合来看，LongCat-2.0 已经接近全球第一梯队 Agent 模型能力。而更重要的是，这些能力是百分之百在国产算力上训练出来的，从而让这场持续三年的国产算力实验，拥有了更强的说服力。

五、万亿参数模型背后：国产算力正在跨过一道门槛

LongCat-2.0 的发布，真正验证了什么？

" 我们 2024 年就验证了国产算力用于前沿训练完全可行，只是到今天才把结论明确讲出来。" 一位参与项目的前龙猫成员向智东西称。

在他看来，LongCat 验证的不只是一个模型，而是一整套国产大模型工程体系。从千卡到 5 万卡的渐进扩容路径、从算子重写到确定性计算的软件栈建设、从超节点性能一致性到比特翻转的故障应对，这些经验积累下来，已经形成了一套可复用的方法论。

在国产算力时代，模型架构需要重新思考。" 模型架构不是算法说了算，也不是工程说了算，是算法和工程 Co-Design（联合设计）的结果。" 该成员强调，模型需要针对国产硬件的显存大小、通信性能等特点做针对性设计。

比如，LongCat-2.0 提出了ScMoE、零计算专家等原创设计，这些创新不仅为了追求模型能力，还是在 " 适配国产硬件 "。

ScMoE 通过 Shortcut 连接让 Dense FFN 路径与 MoE 通信并行，理论推理延迟可降低约 50%。零计算专家机制每层配置 128 个零专家与 768 个 FFN 专家共同路由——零专家不计算，直接返回输入，使激活参数量在 330 亿到 560 亿间动态变化，LongCat-2.0 是业界首个实现此机制的大规模 MoE 模型。N-gram Embedding 将 embedding 空间扩展约 100 倍，在代码生成、指令理解等任务上表现更稳定。

推理层面，龙猫团队针对国产算力显存与带宽受限的特点，采用大 Expert Parallelism 聚合访存带宽，通过上下文并行容纳百万级长上下文。算子层面实现精细控核、SuperKernel 内联优化，将相邻算子的启动开销与计算重叠，端到端带来约 8% 的 TPOT 提升，极限 TPOT（推理延迟）已接近行业主流水平。

把时间拉长到未来三到五年，国产 AI 基础设施最需要补齐的短板是什么？侯龙认为，工艺制程仍然是硬约束。单颗芯片的参数与国际顶尖水平仍有差距，这是客观现实。但通过系统集成可以弥补单芯片的不足，硬件厂商已经在做大量工作。

" 这不是一个不可跨越的障碍。" 侯龙表示。国产算力要真正坐稳全球第一梯队，关键在于算法、基础设施、芯片三者的协同设计。以 LongCat-2.0 的经验来看，这条路已经被证明走得通。

结语：未来 AI 竞争，将是一场系统级全栈竞争

LongCat-2.0 的出现，标志着国产算力在大模型训练领域迈过了一道关键门槛，从 " 能不能 " 进入 " 好不好 " 的阶段。

从 2023 年 7 月启动国产算力适配，到 2024 年春节端到端跑通，到 2025 年年中 Flash 版本发布时在技术报告里用 "accelerator" 而非 "GPU" 的隐晦表达，再到本周明确宣布 " 百分之百国产算力训练 "，这背后是一条持续三年的技术演进路径。

当国产算力开始承载万亿参数级 MoE 模型的全流程训练和推理，这件事的意义已经超出了单一公司或单一模型，而是有望沉淀成整个国产 AI 基础设施的公共能力。未来 AI 竞争的重心，正在从单点突破走向系统级全栈能力的比拼。

宙世代

一起剪

相关标签