量子位 昨天
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

没想到啊,最新 SOTA 的开源大模型……

来自一个送外卖(Waimai)的——有两个 AI,确实不一样。

这个最新开源模型叫:Longcat-Flash-Chat,美团第一个开源大模型,发布即开源,已经在海内外的技术圈子里火爆热议了。

一方面是因为成绩亮眼:

它在部分 benchmark 上,比如 Agent 工具调用、指令遵循的表现超过 DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的 Claude4 Sonnet 还要好。

编程能力也值得关注,在 TerminalBench 上,和公认的 " 编程之王 "Claude4 Sonnet 不相上下。

比如非常流行的小球氛围编程测试,LongCat 编写的程序,运行起来效果是这样的:

另一方面是技术报告中透露出不少美团对于大模型的理解,包括 DSMoE、MLA、动态计算、Infra 等等。

我觉得这是中国大模型里最讲得详细的论文了,甚至超过 Kimi、GLM,特别是在建模和 infra 方面。

要知道,这可是一家 " 外卖公司 " 啊(手动狗头),做的模型都比 Meta 好了。

而且不光是模型性能好,技术报告里还介绍了一系列新发现,比如:

采用新路由架构,调用真正需要的专家模型,使计算更少;

通过将 MoE 和密集层的通信重叠执行,优化模型通信效率;

使用新方法来迁移超参数而不是 muP

……

以及无论是在总参数量还是激活参数上,Longcat-Flash-Chat 都比 DeepSeek-V3.1 和 Kimi-K2 更少。

具体来看——

" 零计算专家 " 让吞吐大幅提升

此次开源的 Longcat-Flash-Chat 是一个 560B 的 MoE 模型,整体架构采用 " 零计算专家 "(Zero-computation Experts)与 Shortcut-connected MoE 双重设计。

它通过根据上下文重要性为每个 token 动态激活 18.6B – 31.3B 参数,并让前一块密集 FFN 与当前 MoE 的通信阶段并行执行,大幅提升训练与推理吞吐。

相比于同为 MoE 架构的 DeepSeek-V3.1(671B/A37B)和 Kimi-K2(1T/A32B),Longcat-Flash-Chat 都拥有相对更少的总参数量和激活参数量。

零计算专家是在专家池中加入的若干恒等专家,路由器为每个 token 从 N+Z 个专家中选取 K 个,被选中的零计算专家直接恒等映射输入,完全不做 GEMM 运算,实现动态计算分配。

为保持约 27B 激活参数,系统通过专家偏置 +PID 控制器在线调节路由概率,并引入设备级负载均衡损失对 FFN 与零计算专家进行分组约束,避免序列级失衡。

Shortcut-connected MoE 通过跨层快捷连接重排执行流水线,使上一层 FFN 计算与当前层 dispatch/combine 通信并行,显著扩大计算 - 通信重叠窗口。

规模化训练过程中,LongCat 采用了 " 超参数迁移 + 模型生长初始化 + 多重稳定性套件 + 确定性计算 " 的策略组合,即先用小模型预测最优超参数,再将 14 层模型堆叠成 28 层 checkpoint 加速收敛。

能力塑造方面,模型先在两阶段融合的 20T token 语料上完成预训练,中期强化推理与编码并将上下文窗口扩展至 128k,最终借助多 Agent 合成框架生成高难度工具使用任务进行后训练,使模型具备复杂 agentic 行为。

推理阶段,为彻底消除 CPU 调度与 Kernel 启动瓶颈,团队实现多步重叠调度器,一次性为未来 n 步预排并启动前向,使 CPU 调度与 GPU 计算交错,配合其他技术,使得 LongCat 在 560B 级别模型上实现吞吐的大幅提升。

最终,LongCat-Flash 在多类权威基准中处于第一梯队,在非思考大模型中与 DeepSeek-V3.1 等模型相当甚至更优。

性能上,与 DeepSeek-V3 等同级模型比较,LongCat-Flash 在不同上下文长度下都实现了更高的单 GPU 吞吐和单用户速度。

560B 参数的 LongCat-Flash 在上万个加速卡上完成超过 20Ttoken 预训练仅用 30 天,训练期间可用率 98.48%,单张 H800GPU 生成速度超过 100 tokens/s,成本约 0.7 美元 / 百万输出 token。

实测美团 LongCat 大模型

那么接下来,就来看看 LongCat 的真实表现,我们跳过简单的基础问答,直接上数学题。

这道题出自今年的全国一卷。这里题目是以文本形式输入给模型的,且公式转换成了 LaTeX 格式。

先看结果,LongCat 的最终答案全部正确:

接下来检查一下具体过程。

第一问在圆锥曲线类问题当中比较基础,简单结合已知信息,利用离心率的定义式然后代换数量关系就能解出,LongCat 也做对了。

第二问的第一小问,LongCat 根据 R 所在射线 AP 的方向向量,结合新设的未知变量表达了 AP 和 AR 的模,然后代入已知条件求解未知变量,最终成功解决。

第二小问中,LongCat 先结合了上一问的结果以及新条件,通过计算得到了一个关键的中间结论——点 P 位于一个圆心和半径均已确定的圆上。

如果想象不到,这里有一个简单图示。

利用该结论,LongCat 对最大距离进行了拆解,并通过代入等方法,最终计算出了正确结果。

接下来是一项综合能力测试,绘制生物学当中光合作用当中卡尔文循环的 SVG 示意图,SVG 是一种用代码表示的矢量图形。

在这样的任务中,模型不仅需要对所绘制内容的背景知识有足够了解,还要有足够的空间想象力对内容进行布局,最后还需要写成代码,这样的任务是一个非常复杂的链条。

言归正传,我们对 LongCat 给出的 SVG 代码进行了可视化,总的来说,LongCat 比较顺利地完成了图示的绘制。

最后是一道迷惑性问题,题目出自 GitHub 上一个名为 Misguided Attention 的 Benchmark。

其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。

比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的 " 猫设 " 被改成了一只死去的猫。

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗?

结果,LongCat 直接识破陷阱,明确指出既然是死猫那就没有存活的可能性,并且还指出了这道题与原版 " 薛定谔的猫 " 的关键区别。

而 o3 就没有认真读题,还是按照传统的薛定谔的猫那一套进行的回答。

" 外卖公司 " 怎么在做大模型?

这次引发海外热议的还有一个原因在于美团给他们带来的反差感

很多人简单粗暴把美团理解为一家外卖公司。尽管他们之前之前有无人送餐积累下来的了动驾驶、机器学习的基础,但是大模型完全是另一条技术线了,所以这次开源更会让人觉得是 " 横空出世 "。

不过梳理美团在大模型浪潮后的 AI 动向,这次模型开源也就不那么意外了。

2023 年,王慧文振臂一呼自带 5000 万美元成立光年之外,并招揽一众 AI 领域顶级人才团队加盟。后续由于王慧文个人健康原因,好兄弟王兴兜底,美团于是接手光年之外,现有团队将继续研发大模型。

同年,由美团内部独立 AI 团队 GN06 开发的 AI 情感陪伴产品 Wow 上线,这也是美团发布的第一个独立 AI 应用。

2024 年 4 月,病休的王慧文以顾问身份回归美团,11 月正式领导 GN06 团队。

GN06 在美团的定位是一个相对独立的 AI 团队、不隶属于任何事业群,专注于探索主营业务之外的创新 AI 应用。

2024 年他们还推出了一个 AI 图像生成应用 " 妙刷 "。

在 2024 年 6 月,GN06 的招聘需求明显增加,范围覆盖前端、客户端、后端、产品、运营、商分等。

2024 财年业绩发布会上,美团还正式明确了 " 主动进攻 " 的 AI 策略。

美团 CEO 王兴首次阐述了公司的 AI 战略布局,主要通过三层架构推动技术落地:

AI at Work:目标是利用 AI 工具提升超过 10 万名员工的工作效率。

AI in Products:旨在用 AI 改造现有产品并创建原生 AI 应用。

Building LLM:持续投入资源自研大模型。

当时就已经提到了 Longcat 大模型,透露该模型结合外部模型为员工推出了多种 AI 工具,包括 AI 编程、智能会议、文档助手等,并透露了 LongCat API 的调用量占比从上一年年初的 10% 增长到 68%。从这个信息推断,Longcat 在至少在 2024 年初就已经可以落地应用。

另外在研发投入上,2024 年美团投入 211 亿搞研发,规模仅次于华为、腾讯和阿里巴巴。过去 5 年研发投入突破 1000 亿元。

产品结合方面,美团测试推出了问小袋、米鲁等 AI 智能助手,用于餐饮推荐、问答交互等。

在这种战略下,2025 年美团在 AI 方向的动作更加明显起来。

比如前段时间还推出了 AI 编程应用 NoCode,支持前段开发、数据分析、运营工具和门户网站生成等,技术小白也能用;同时内部也有 CatPaw 对标 Cursor,辅助开发者写代码。

总体来看,以美团的研发储备,开源一个大语言模型并不意外。

不过也不同于 AI 公司,美团的 AI 布局更多以业务场景驱动为核心,注重在实际应用中的落地效果。

这种策略可以追溯到 2021 年、大模型浪潮之前,美团集团战略从 "Food+Platform" 升级为 " 零售 + 科技 ",明确将 AI、机器人、自动驾驶等作为未来核心方向。

比如在更加早期的具身智能领域,美团已多次出手,投资了宇树、星海图、银河通用、它石智航等头部梯队公司。

你用来拼好饭的美团,确实不是单纯送外卖的美团。

虽然外卖大战依然火热,但用 AI 的视角审视美团,也是时候了。

试用地址:https://longcat.chat

huggingface:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

github:https://github.com/meituan-longcat/LongCat-Flash-Chat

x/twitter:https://x.com/Meituan_LongCat/status/1961827385667690965

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

美团 kimi 开源 编程 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论