Meta发布Muse Spark：华人天团废墟重建，最恨Llama的果然是小扎自己

在 Llama 彻底 " 崩盘 " 后，Meta 创始人兼 CEO 扎克伯格亲手拆除过去的团队、架构并彻底走向 " 反 Llama" 路线，砸百亿建起华人科学家为主的 AI 研发天团。今天，在 9 个月后，在整个硅谷关注以及不少的冷嘲热讽下，他和这个全新团队终于交出了首个模型作品，试图证明一整套从零搭建的 AI 栈跑通了。

4 月 8 日，Meta 正式发布了 MSL（Meta Superintelligence Labs）成立以来的第一个模型 Muse Spark。九个月前 Alexandr Wang 加入 Meta 担任首席 AI 官，带着从 OpenAI 挖来的一众华人核心研究员，推翻了整个 Llama 时代的技术栈——新基础设施、新架构、新数据管道，全部从零开始。Muse Spark 就是这套新栈的第一个产出，现在它已经直接上线驱动 Meta AI。

在 Llama 4 因 benchmark 造假风波陷入被动的背景下，这是 Meta 的一次全面重启。

Muse Spark 是什么

它是个处处和 Llama 反着来的模型：

一个被刻意设计得小巧、轻量、高响应速度的原生多模态推理闭源模型。

先看它的核心能力：

原生多模态：不是把视觉编码器硬缝到文本模型上的 " 拼接式 " 架构。从预训练阶段起，文本、图像、语音就在同一个高维特征空间里训练。这意味着它处理图片不需要先翻译成文字描述，而是直接从像素级别提取信息。

Visual Chain of Thought（VCoT，视觉思维链）：传统的思维链推理是纯文本的，模型在文字里逐步拆解问题。Muse Spark 把这个机制引入了视觉空间——它能在图像中 " 思考 "，自主构建视觉元素之间的空间和逻辑关系。

Contemplating Mode（沉思模式）：对标 Gemini Deep Think 和 GPT Pro 的极限推理模式。区别在于它不是单线串行推理，而是在后台同时拉起多个并行运算的子 agent，各自处理任务的不同维度，最后由主控系统融合结果。沉思模式下 Humanity's Last Exam 达到 58%，FrontierScience Research 达到 38%。

工具调用和多 agent 编排：原生支持，不是后期拼上去的。

目前 Muse Spark 已在 meta.ai 和 Meta AI app 上线，Contemplating Mode 逐步灰度中，同时向少量合作伙伴开放私有 API 预览。

技术亮点：华人天团都是怎么说的

今天 MSL 团队几乎集体在 X 上发帖，几个关键信息值得注意：

Meta 官方博客放出了一个极其重要的数据：在预训练阶段，新栈达到同等能力水平所需的算力比上一代 Llama 4 Maverick 减少了超过一个数量级。不是百分之几十的优化，是 10 倍以上的效率提升。博客原文称 "over an order of magnitude less compute"，并且 "significantly more efficient than the leading base models available for comparison" ——甚至比其他家的基座模型都高效。

Alexandr Wang 的九条 thread 里最重要的一句话："we saw predictable scaling across pretraining, RL, & test-time reasoning." 预训练、强化学习、测试时推理，三条线都看到了可预测的 scaling ——这可能比任何 benchmark 数字都重要。它意味着这套栈不是调出来的一个 lucky shot，而是一个 scaling 曲线平滑的系统。

首席科学家赵晟佳（@shengjia_zhao）的描述更具体：这个模型的训练路径是 " 端到端的教育 " —— school（预训练）、homework（RL）、on-the-job training（产品部署后的持续学习）。他强调 "we just got started"。

RL 部分有个很有意思的技术细节。毕树超（@shuchaobi）提到了训练中最痛苦的部分：大规模 RL 的不稳定性，以及 "fighting reward hacking" ——对抗奖励机制作弊。但官方博客显示他们最终把 RL 跑到了 "smooth, predictable gains" 的状态，pass@1 和 pass@16 都呈 log-linear 增长，而且在未见过的评测集上也能平滑泛化。

更有意思的是 RL 训练中出现的 " 相变 " 现象：团队在训练时引入了 thinking time penalty（思考时间惩罚），模型先是通过更长的思考来提升表现，然后在惩罚压力下学会了 " 思想压缩 " ——用更少的 token 解决同样的问题，之后又再次延伸推理以达到更高性能。Ananya Kumar（@ananyaku）在帖中称这个过程 "pretty neat"。

Ananya 放出的另一组图表显示了多 agent 推理的关键 insight：多个 agent 并行推理，在相同延迟下能达到比单 agent 更高的性能。换句话说，Contemplating Mode 不只是 " 让模型想得更久 "，而是 " 让多个模型同时想不同的事 "。

余家辉（@jhyuxm）作为多模态底座的总架构师，说了一句很有意思的话："It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事，建团队和文化是另一回事——他们在九个月里两件事同时干了。

Jason Wei（@_jasonwei）的回忆最有画面感：" 第一周我们在食堂吃了一顿漫长的晚餐，畅想研究方向，然后回到桌前写了一个基本的 inference llama 脚本。现在我们有了一套相当完整的技术栈，第一个模型已经发布。"

Benchmark：什么领先不领先，回到牌桌先

再来看看 benchmark 数据：

HealthBench Hard（极高难度医学问答）：Muse Spark 42.8，GPT-5.4 是 40.1，Gemini 3.1 Pro 只有 20.6，Claude Opus 4.6 只有 14.8。绝对领先，接近其他模型的两到三倍。

CharXiv Reasoning（科研论文图表深度理解）：86.4，全行业最高。

SWE-bench Pro（真实软件工程任务）：55.0%，超过 Claude Opus 4.6 的 51.9%。

Artificial Analysis 综合智能指数：52 分，而 GPT-5.4 和 Gemini 3.1 Pro 都是 57 分。

Meta 想借此说明：Muse Spark 在医疗多模态和科研图表理解这两个需要 " 真正看懂图 " 的领域，已经是毫无争议的第一。在代码工程上也进入了第一梯队。

不过，目前它综合能力距离 GPT-5.4 和 Gemini 3.1 Pro 还有 5 分的差距，纯文本高级推理方面也还没撼动 Anthropic 和 Google 的积累。

这样的表现继续引来一些批评，Ndea 的 cofounder Fran ç ois Chollet 直接称 Muse Spark" 已经看起来是个令人失望的模型 "，他认为模型过度优化了公开 benchmark，牺牲了实际可用性——而 Alexandr Wang 的回应很克制：承认模型在 ARC AGI 2 等评测上表现不佳，并强调这些数据已主动公开。

Chollet 的质疑不是没有道理。Llama 4 时代 Meta 就因 benchmark 造假风波伤过一次信誉。这次 Muse Spark 在 Artificial Analysis 综合指数上仍落后 GPT-5.4 和 Gemini 3.1 Pro 五分，医疗和科研图表上的断档领先，是否来自对特定 benchmark 的定向优化，还是原生多模态架构带来的真实能力？这个问题需要更多第三方独立测试来回答。

Muse Spark 当然重要，但它最重要的意义不在于今天的 benchmark 分数。

从这个模型的设计，到这些研究员此次重点介绍的技术亮点，一切都指向对 Llama 的反对：Llama 4 的大溃败在扎克伯格眼里是个要彻底翻篇的事情，所以不只是它的开源路线，它的模型架构要改，更重要的是它整个训练基础设施都得给它掀翻了。此次这几位核心作者的 x 发文，看起来都在围绕底层技术栈的重构来介绍。Muse Spark 这次发布也让人更明白扎克伯格挖来 Alexander Wang 的目的。

最恨 Llama 的还得是扎克伯格自己，他必须得全盘给它推翻，在废墟里重建。

此次的发布也是 Meta 招兵买马后那支华人天团交出的第一个模型。余家辉（前 OpenAI 感知团队负责人、GPT-4o 核心开发者）、赵晟佳（前 OpenAI 合成数据研发领头人、ChatGPT 联合创作者）、任泓宇（前 OpenAI o1/o3 推理核心贡献者）、毕树超（前 OpenAI 多模态后训练负责人）、林纪（前 OpenAI 核心优化专家）——这些被 Meta 用上亿美元的签字费挖过来的 AI 科学家，在纸面上自然是一个明星团队，他们必须先用一个模型让 Meta 回到牌桌上。这是扎克伯格的当务之急。

扎克伯格在九个月前交给他们的是一张白纸。今天他们交出的答案其实更多是一整套预训练、RL、测试时推理的完整栈，并且——关键在这—— scaling 曲线是平滑的、可预测的。

更大的模型已经在路上了。