全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

【新智元导读】最大开源模型，再次刷爆纪录！Snowflake 的 Arctic，以 128 位专家和 4800 亿参数，成为迄今最大的开源模型。它的特点，是又大又稀疏，因此计算资源只用了不到 Llama 3 8B 的一半，就达到了相同的性能指标。

就在刚刚，拥有 128 位专家和 4800 亿参数的 Arctic，成功登上了迄今最大开源 MoE 模型的宝座。

它基于全新的 Dense-MoE 架构设计，由一个 10B 的稠密 Tranformer 模型和 128×3.66B 的 MoE MLP 组成，并在 3.5 万亿个 token 上进行了训练。

不仅如此，作为一个比「开源」更「开源」的模型，团队甚至把训练数据的处理方法也全给公开了。

Arctic 的的两个特点，一个是大，另一个就是非常稀疏。

好处就在于，这种架构让你可以用比别人少好几倍的训练开销，就能得到性能差不多的模型。

也就是说，与其他使用类似计算预算训练的开源模型相比，Arctic 的性能更加优异。

比起 Llama 3 8B 和 Llama 2 70B，Arctic 所用的训练计算资源不到它们的一半，评估指标却取得了相当的分数！

图 1 编码（HumanEval+ 和 MBPP+）、SQL 生成（Spider）和指令遵循（IFEval）的企业智能平均值与训练成本的比较

具体信息如下——

480B 参数，生成期间 17B 处于活跃状态；

128 位专家，有 2 位在生成期间活跃；

Instruct & Base 版本发布；

专注于企业任务（代码、SQL、推理、跟踪）；

在 Apache 2.0 下发布；

FP16 精度下约为 900GB 内存，INT4 精度下约为 240GB 内存

使用 DeepSpeed-MoE 训练。

主打的就是一个性价比

评测主要看两项指标，一个是企业智能指标，一个是学术基准。

企业智能指标，是对企业客户至关重要的技能，包括包括编码 ( HumanEval+ 和 MBPP+ ) 、SQL 生成 ( Spider ) 和指令遵循 ( IFEval ) 。

同时，团队也采用了业界常用的评估 LLM 的学术基准，包括世界知识、常识推理和数学能力。

可以看到，Arctic 在多项企业智能指标中，都超越了 Mixtral 8×7B 等开源对手。

在计算类别中，它实现了顶级性能，甚至和使用更高计算预算训练的模型，都有的一拼。

在学术基准上，它的表现也不差。

在测评中，团队发现了一件有意思的事。

MMLU 等世界知识指标，是人们常用的学术基准测试。而随着高质量网络和 STEM 数据的增加，MMLU 的得分会随着训练 FLOPS 的增加而提高。

但是，Arctic 的目标之一，是在保持较小训练预算的同时优化训练效率，因此，跟其他模型相比，Arctic 在 MMLU 上的得分较低，也实属情理之中。

由此，如果训练计算预算高于 Arctic 的训练，MMLU 性能就将超越 Arctic。

当然，MMLU 世界知识的性能，并不一定和团队所关注的企业智能直接相关。

表 3 Arctic 与 DBRX、Llama 3 8B、Llama 3 70B、Mixtral 8x7B、Mixtral 8x22B 的对比

企业级 AI 的训练成本，被打下来了！

在以往，用 LLM 构建顶级企业 AI 的成本，往往高得离谱，而且需要大量资源，令人望而却步。

通常，花费的成本高达数千万甚至数亿美元，这一成本是惊人的。

如何解决有效训练和推理的限制？Snowflake AI 团队的研究者一直在做这方面的努力，团队成员过去曾开源了 ZeRO、DeepSpeed、PagedAttention/vLLM 和 LLM360 等系统，显著降低了 LLM 训练和推理的成本。

而今天推出的 Arctic，在 SQL 生成、编码和遵循基准指令等企业任务上，表现非常出色。

它为具有成本效益的训练设定了新的基准，用户可以以极低的成本，就能创建满足企业需求的高质量定制模型。

Arctic 也是一个真正的开放模型，在 Apache 2.0 许可下，提供对权重和代码的无限制访问。

从今天开始，Snowflake Arctic 就可以从 Hugging Face 上获取了。

计算资源仅用一半，表现却和 Llama 3 8B 相当

团队发现，企业客户对 AI 有着一致的需求和使用场景——构建对话式 SQL 数据助手、代码助手和 RAG 聊天机器人。

为了便于评估，团队通过对编码（HumanEval+ 和 MBPP+）、SQL 生成（Spider）和指令跟随（IFEval）取平均值，将这些能力整合到「企业智能」这个单一指标中。

在开源 LLM 中，Arctic 仅用不到 200 万美元（相当于不到 3000 个 GPU 周）的训练计算预算，就实现了顶级的企业智能。

更重要的是，即使与那些使用显著更高计算预算训练的模型相比，它在企业智能任务上也表现出色。

结果显示，Arctic 在企业级评估指标上的表现，与 Llama 3 8B 和 Llama 2 70B 相当，甚至更优，而它所使用的训练计算资源却不到后两者的一半。

具体来说，Arctic 使用的计算预算只有 Llama3 70B 的 1/17，但在编程（HumanEval+ 和 MBPP+）、SQL（Spider）和指令跟随（IFEval）等企业级任务上，都与其不相上下。

表 1 Arctic、Llama-2 70B、DBRX 和 Mixtral 8x22B 的模型架构和训练计算量（与活跃参数和训练 token 的乘积成正比）

此外，Arctic 的高训练效率还意味着，Snowflake 客户和整个 AI 社区可以以更加经济实惠的方式训练定制模型。

训练效率

为了实现如此高的训练效率，Arctic 采用了独特的 Dense-MoE Hybrid transformer 架构。

该架构将一个 10B 规模的稠密 Transformer 模型与一个 128×3.66B 规模的残差 MoE MLP 相结合，虽然总参数量达到 480B，但通过 top-2 gating 的方式只选择了其中 17B 个参数保持活跃。

Arctic 的设计和训练基于以下三个关键创新 :

1. 更多但精炼的专家，以及更多的专家选择

首先，DeepSpeed 团队在 2021 年末便证明了，MoE（Mixture of Experts）可以在不增加计算成本的情况下，显著提高 LLM 模型的质量。

其次，模型质量的提升主要取决于 MoE 模型中专家的数量、总参数量以及这些专家可以组合在一起的方式和数量。

基于此，Arctic 被设计为拥有 480B 个参数，分布在 128 个细粒度专家中，并使用 top-2 gating 选择 17B 个活跃参数。相比之下，最近的 MoE 模型使用的专家数量就要少得多了（如表 2 所示）。

从直观上看，Arctic 利用更大的总参数量和众多专家来扩大模型容量，同时更明智地在众多精炼的专家中进行选择，并使用适度数量的活跃参数来实现资源高效的训练和推理，最终获得顶级的智能。

图 2 标准 MoE 架构 vs. Arctic

2. 架构和系统协同设计

即便是用最强大的 AI 硬件，想要基于普通的 MoE 架构训练大量专家效率依然很低。

其原因在于，专家之间存在的全通信开销非常高昂。不过，如果能将通信与计算重叠，那么就可以极大地降低这种开销。

因此，团队在 Arctic 架构中将一个密集的 Transformer 与一个残差 MoE 组件（图 2）相结合，从而使系统能够通过通信计算重叠来消除大部分通信开销，最终实现了极佳的训练效率。

3. 面向企业的数据课程

要在代码生成和 SQL 等企业指标上表现出色，需要与训练通用指标的模型截然不同的数据课程。

团队在进行了数百次小规模的对比实验后发现，常识推理等通用技能可以在开始时学习，而编码、数学和 SQL 等更复杂的指标可以在训练的后期有效学习。

因此，Arctic 采用了三阶段课程进行训练，每个阶段的数据组成不同——

第一阶段（1T Tokens）侧重于通用技能，后两个阶段（1.5T 和 1T Tokens）侧重于企业级技能。

表 2 Arctic 三阶段训练的动态数据组成

推理效率

训练效率，只是 Arctic 高效的其中一个方面。

如果希望低成本部署模型，推理效率也同样至关重要。

作为 MoE 模型规模的飞跃，Arctic 使用了比其他开源自回归模型更多的专家和参数。

因此，为了有效地在 Arctic 上运行推理，团队做了一些系统性的创新——

a）在较小 batch 的交互式推理中（比如批大小为 1），MoE 模型的推理延迟受到了读取所有活跃参数所需时间的瓶颈，其中，推理是受内存带宽限制的。

在这样的批大小下，Arctic（17B 活跃参数）的内存读取次数比 Code-Llama 70B 少 4 倍，比 Mixtral 8x22B（44B 活动参数）少 2.5 倍，从而实现更快的推理性能。

为此，团队跟英伟达的 TensorRT-LLM 和 vLLM 团队展开合作，为交互式推理提供了 Arctic 的初步实现。

通过 FP8 量化，团队可以将 Arctic 放入单个 GPU 节点中。

虽然仍远未完全优化，但在批大小为 1 时，Arctic 的吞吐量超过 70+token/ 秒，这样就实现了有效的交互式服务。

b ) 当批大小的规模显著增加，例如每次前向传递要处理数千个 token 时，Arctic 就会从内存带宽受限转变为计算受限，此时推理的瓶颈就在于每个 token 的活跃参数。

在这一点上，与 CodeLlama 70B 和 Llama 3 70B 相比，Arctic 的计算需求减少了 4 倍。

为了实现计算受限的推理和与 Arctic 中活跃参数数量较少相对应的高吞吐量（如下图所示），需要较大的 batch size。

要实现这一点，需要有足够的 KV 缓存内存来支持较大的 batch size，同时也需要足够的内存来存储近 500B 的模型参数。

面对这重重挑战，最终团队还是找到了办法。

通过使用 FP8 权重、分割融合和连续批处理、节点内的张量并行性以及节点间的管线并行性等系统优化组合，团队在双节点推理中，实现了这一目标。

图 3 推理期间编码（HumanEval+ 和 MBPP+）、SQL 生成（Spider）和指令跟踪（IFEval）企业智能的平均值与活跃参数的对比

开源代码

新模型 Arctic 基础模型和指令微调模型代码全部开源，任何人可以将其用于研究、产品、原型当中。

项目地址：https://github.com/Snowflake-Labs/snowflake-arctic

研究人员基于 LoRA 的微调的 pipeline 和配方（recipe），并允许在单个节点上进行高效的模型微调。

现在，Snowflake 正在与英伟达 TensorRT-LLM 和 vLLM 开展合作，为 Arctic 模型开发初始的推理实现，并且针对批大小为 1 的交互式使用进行了优化。

未来，他们还将与社区合作，解决真正大型 MoE 更大的批大小的推理复杂性。

Cookbook：https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

另外，Arctic 现使用的是 4k 上下文窗口进行训练，研究人员还将开发一种基于注意力下沉（attention-sinks）的滑动窗口的方法，以支持未来几周无限序列生成能力。

下一步，将会扩展到 32K 上下文窗口。

团队介绍

Snowflake 的 CEO，是 Sridhar Ramaswamy，是前谷歌高级副总裁。

在谷歌工作 15 年后，他成为 Neeva 的联合创始人，后来 Neeva 被 Snowflake 收购。

他在印度理工学院马德拉斯分校获得计算机学士学位，并在布朗大学获得计算机博士学位。

AI 团队的一把手 Vivek Raghunathan，也是前谷歌副总裁。

他曾担任微软研究员，后在谷歌从事机器学习、广告基础架构等方面工作，18 年开始在谷歌担任副总裁，领导 YouTube 团队。

随后，他和 Sridhar Ramaswamy 共同创办了 Neeva。

Raghunathan 同样也是印度理工学院的校友，不过是在孟买分校获得的学士学位。之后，他在 UIUC 取得了硕士和博士学位。

为了发展 AI，两人把 DeepSpeed 团队最顶尖的几个元老都挖了过来，包括 Zhewei Yao 和 Yuxiong He。

Zhewei Yao 在 UC 伯克利获得博士学位，研究兴趣在于计算统计、优化和机器学习。（在此之前，他 2016 年曾获得上交大数学学士学位。）

他从 2021 年开始便加入了微软，在微软担任首席研究员和研发经理，致力于高效的大规模训练和推理。

目前，他是 Snowflake 的高级科学家和 SDE II，同时也是 Snowflake 大规模预训练创始成员。

Yuxiong He 在微软任职 13 年，是 DeepSpeed 的创始人之一，最近加入了 Snowflake。

她曾在新加坡南阳理工大学获得了计算机工程学士学位。

团队的另一位华人大牛 Aurick Qiao，去年 11 月刚加入 Snowflake。

CMU 读博期间，他曾获得 Osdi 2022 的最佳论文优胜奖。此前曾在微软、Dropbox 工作。

曾担任 Petuum CEO，以及 LMNet 的联合创始人。

Hao Zhang 是 UCSD 的 Hal ı c ı o ğ 数据科学研究所和计算机科学与工程系的助理教授。

他曾获得了 CMU 计算机博士学位，师从 Eric Xing。在攻读博士学位期间，他休学一段时间并在 ML 平台初创公司 Petuum 工作。

Hao Zhang 在 2023 年联合创立了 LMnet.ai，这家公司于同年 11 月加入了 Snowflake。

他此前还共同创办了非营利组织 LMSYS Org，该组织训练了此前十分流行的模型 Vicuna 以及发起和维护目前最重要的大语言模型评测机制：Chatbot Arena。

他本人的研究兴趣是机器学习与系统的交叉领域。

参考资料：

https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

宙世代

智慧云

相关标签