智东西 04-06
Llama 4开源空降!1000万超长上下文、单GPU可跑,还有近2万亿参数巨模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编译 | ZeR0

编辑 | 漠影

智东西 4 月 6 日报道,今日,Meta 发布 Llama 4 系列首批模型,包括两款高效模型 Llama 4 Scout、Llama 4 Maverick。这是 Meta 首款采用混合专家(MoE)架构构建的原生多模态模型,其中 Scout 更是首度支持超长 10M 上下文窗口。Meta 还预览了其迄今最强大的新教师模型—— Llama 4 Behemoth。

" 小杯 "Llama 4 Scout拥有 16 位专家、170 亿个活跃参数、1090 亿个总参数,被称作 " 同类产品中全球最好的多模态模型 ",提供1000 万 tokens 上下文窗口(对应多达 500 万个单词的文本),适用于单张 NVIDIA H100 GPU(具有 Int4 量化),并在广泛基准测试中分数超过 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

" 中杯 "Llama 4 Maverick拥有 128 位专家、170 亿个活跃参数、4000 亿个总参数,也是 " 同类中最好的多模态模型 ",适用于单台 H100 主机,在广泛基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,同时在推理和编程方面取得了与新 DeepSeek-v3 相当的结果,活跃参数不到后者的一半。

Llama 4 Maverick 主打性价比,其实验性聊天版本在 LMArena 上的 ELO 得分为 1417,每 1M tokens 输入和输出推理成本区间(0.19-0.49 美元)也做到接近甚至低于 DeepSeek v3.1(0.48 美元)。

这些成绩归功于从 Meta 迄今最强大的模型 " 巨杯 "Llama 4 Behemoth的提炼。Llama 4 Behemoth 拥有 16 位专家、2880 亿个活跃参数、近 2 万亿个总参数,在多个 STEM 基准测试中的表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

Llama 4 Behemoth 仍在训练中,尚未正式发布,但 Meta 先分享了一些技术细节。

从 llama.com 和 Hugging Face 可下载 Llama 4 Scout 和 Llama 4 Maverick 模型。这些模型很快将在主流云和数据平台、边缘芯片和全球服务集成商上提供。

模型下载地址:

llama.com/llama-downloads/

huggingface.co/meta-llama

即日起,用户在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上可试用使用 Llama 4 构建的 Meta AI。

Meta 还预告将在 4 月 29 日的 LlamaCon 上分享更多关于其愿景的内容。

一、MoE 架构 + 多种预训练新方法,提高算力利用率

构建下一代 Llama 模型在预训练期间采用了多种新方法。

新 Llama 4 模型是 Meta 首批使用混合专家(MoE)架构的模型。在 MoE 模型中,单个 token 仅激活总参数的一小部分。MoE 架构在训练和推理方面具有更高的计算效率,并且在给定固定训练 FLOP 预算的情况下,与密集模型相比,可提供更高的质量。

例如,Llama 4 Maverick 模型有 17B 个活跃参数和 400B 个总参数。Meta 使用交替的密集和混合专家(MoE)层来提高推理效率。

MoE 层使用 128 位路由专家和一位共享专家。每个 token 都会发送给共享专家以及 128 位路由专家之一。因此,虽然所有参数都存储在内存中,但在为这些模型提供服务时,只有总参数的子集被激活。

这通过降低模型服务成本和延迟来提高推理效率。Llama 4 Maverick 可在单台 NVIDIA H100 DGX 主机上运行,​​以便于部署,也可以通过分布式推理实现最高效率。

Llama 4 模型采用原生多模态设计,结合早期融合,将文本和视觉 token 无缝集成到统一的模型主干中。早期融合是向前迈出的重要一步,因为它使 Meta 能够使用大量未标记的文本、图像和视频数据联合预训练模型。

Meta 还改进了 Llama 4 中的视觉编码器。它基于 MetaCLIP,但与冻结的 Llama 模型一起单独训练,以便更好地使编码器适应大语言模型。

Meta 开发了一种新的训练技术 MetaP,能可靠地设置关键模型超参数,例如每层的学习率和初始化尺度。该团队发现所选的超参数在不同的 batch 处理大小、模型宽度、深度和训练 token 值之间具有良好的迁移性。

Llama 4 通过对 200 种语言进行预训练来实现开源微调工作,其中包括 100 多种语言,每种语言都有超过 10 亿个 token,总体而言,多语言 tokens 比 Llama 3 多 10 倍。

此外,Meta 专注于使用 FP8 精度进行高效的模型训练,而不会牺牲质量并确保较高的模型 FLOP 利用率。在使用 FP8 和 32K GPU 预训练 Llama 4 Behemoth 模型时,Meta 实现了 390 TFLOPs/GPU。用于训练的整体数据组合由超过 30 万亿个 token 组成,是 Llama 3 预训练组合的 2 倍多,包括各种文本、图像和视频数据集。

Meta 继续在所谓的 " 中期训练 " 阶段训练模型,以使用新的训练方案(包括使用专门的数据集进行长上下文扩展)来提高核心功能。这使其能够提高模型质量,同时为 Llama 4 Scout 解锁超长的 10M 输入上下文长度。

二、改进后训练流程,权衡计算和准确性

新 Llama 4 模型有不同大小。Llama 4 Maverick 在图像和文本理解方面提供行业领先性能,支持创建复杂的 AI 应用程序以跨越语言障碍。作为 Meta 针对通用助手和聊天用例的产品主力模型,Llama 4 Maverick 非常适合精确的图像理解和创意写作。

在对 Llama 4 Maverick 模型进行后训练时,最大的挑战是在多种输入模式、推理和对话能力之间保持平衡。对于混合模式,Meta 提出了一个精心策划的课程策略,与单个模式专家模型相比,该策略不会牺牲性能。

借助 Llama 4,Meta 通过采用不同的方法改进了后训练流程:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化 (DPO)。

一个关键的学习是,SFT 和 DPO 可能会过度约束模型,限制在线强化学习阶段的探索并导致准确性不理想,特别是在推理、编程和数学领域。

为了解决这个问题,Meta 使用 Llama 模型作为判断标准,删除了 50% 以上标记为简单的数据,并对剩余的较难数据集进行了轻量级 SFT。

在随后的多模态在线强化学习阶段,通过仔细选择更难的提示,Meta 能够实现性能的阶跃变化。

此外,Meta 实施了持续在线 RL 策略,交替训练模型,然后使用它来持续过滤并仅保留中等难度到困难难度的提示。事实证明,这种策略在计算和准确性权衡方面非常有益。

然后,Meta 做了一个轻量级 DPO 来处理与模型响应质量相关的极端情况,有效地在模型的智能和对话能力之间实现了良好的平衡。管道架构和具有自适应数据过滤的持续在线 RL 策略最终形成了业界领先的通用聊天模型,具有先进的智能和图像理解能力。

作为通用大语言模型,Llama 4 Maverick 包含 170 亿个活跃参数、128 位专家和 4000 亿个总参数,与 Llama 3.3 70B 相比,它以更低的价格提供高质量。

Llama 4 Maverick 是同类最佳的多模态模型,在编程、推理、多语言、长上下文和图像基准测试中超越了 GPT-4o 和 Gemini 2.0 等同类模型,并且在编程和推理方面可与活跃参数规模大得多的 DeepSeek v3.1 相媲美。

小型模型 Llama 4 Scout 是一个通用模型,拥有 170 亿个活动参数、16 位专家和 1090 亿个总参数,可提供同类中一流的性能。Llama 4 Scout 将支持的上下文长度从 Llama 3 中的 128K 大幅增加到行业领先的 1000 万个 token,适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。

Llama 4 Scout 经过了预训练和后训练,上下文长度为 256K,这为基础模型提供了高级长度泛化能力。

Meta 在诸如对文本进行 " 大海捞针 " 式检索以及对 1000 万个代码 token 进行累积负对数似然(NLL)等任务中展示了令人信服的结果。

Llama 4 架构的一个关键创新是使用没有位置嵌入的交错注意层。此外,Meta 采用注意力的推理时间温度缩放来增强长度泛化,并称之为 iRoPE 架构。其中 "i" 代表 " 交错 " 注意层,突出了支持 " 无限 " 上下文长度的长期目标,"RoPE" 指的是大多数层中使用的旋转位置嵌入。

Meta 用各种图像和视频帧静态图像训练了两个模型,以便让它们具有广泛的视觉理解能力,包括时间活动和相关图像。这使得多图像输入以及用于视觉推理和理解任务的文本提示能够轻松交互。这些模型在多达 48 张图像上进行了预训练,在训练后测试了多达 8 张图像,取得了良好的效果。

Llama 4 Scout 在图像基础方面也性能出色,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。这使得大语言模型能够更精确地回答视觉问题,从而更好地理解用户意图并定位感兴趣的对象。

该模型在编程、推理、长上下文和图像基准方面也超越了同类模型,并比所有以前的 Llama 模型都具有更强大的性能。

三、Llama 4 Behemoth 预览:近 2 万亿总参数,改造底层基础设施

Llama 4 Behemoth 一个教师模型,也是一个多模态专家混合模型,拥有 2880 亿个活跃参数、16 个专家、近 2 万亿个总参数,在数学、多语言和图像基准测试中为非推理模型提供了先进性能。

Meta 开发了一种新颖的提炼损失函数,可通过训练动态加权软目标和硬目标。在预训练期间从 Llama 4 Behemoth 进行共同提炼,可摊销计算学生训练中使用的大多数训练数据的提炼目标所需的资源密集型前向传递的计算成本。为了在学生训练中加入更多新数据,Meta 对 Behemoth 模型进行了前向传递,以创建提炼目标。

对具有 2 万亿个参数的模型进行后期训练也是一项重大挑战,这需要从数据规模开始彻底改革和改进配方。为了最大限度地提高性能,必须修剪 95% 的 SFT 数据,而对于较小的模型则需要修剪 50%,以实现对质量和效率的必要关注。

Meta 还发现,进行轻量级 SFT 后进行大规模强化学习(RL)可以更显著地提高模型的推理和编程能力。其 RL 配方专注于通过使用策略模型进行 pass@k 分析来采样硬提示,并制定增加提示难度的训练课程。

Meta 还发现,在训练期间动态过滤掉没有优势的提示,并使用来自多种功能的混合提示构建训练批次,有助于提高数学、推理和编程的性能。

最后,从各种系统指令中采样对于确保模型保留其推理和编程的指令遵循能力并能够在各种任务中表现良好至关重要。

由于 RL 的规模空前巨大,因此将其扩展到 2 万亿参数模型也需要改造底层 RL 基础设施。

Meta 优化了 MoE 并行化的设计以提高速度,从而实现了更快的迭代。该团队开发了一个完全异步的在线 RL 训练框架,提高了灵活性。与现有的分布式训练框架相比,后者牺牲了计算内存来将所有模型堆叠在内存中,而其新基础设施能够灵活地将不同的模型分配到单独的 GPU 上,根据计算速度在多个模型之间平衡资源。与前几代相比,这项创新使训练效率提高了约 10 倍。

结语:开源多种保护措施,改进消除偏见能力

Meta 称其目标是开发最有帮助和实用的模型,同时防范和缓解最严重的风险,根据《开发人员使用指南:AI 保护》中概述的最佳实践构建了 Llama 4,使开发人员能够为其 Llama 支持的应用程序创建有用、安全且适应性强的体验。

Meta 在预训练方面,结合使用数据过滤和其他数据缓解措施来保护模型;对于后训练,应用了一系列技术来确保模型符合对用户和开发者有益的政策,包括在每个阶段提供适当级别的安全数据。

在系统层面,Meta 开源了几种保护措施,可帮助识别和防范潜在的有害输入和输出。这些工具(Llama Guard、Prompt Guard、Cyber ​​ SecEval)可以集成到 Llama 模型中,也可以与其他第三方工具集成。

Meta 以可控且可重复的方式对各种场景和用例中的模型进行系统测试,并将产生的数据整合到训练后的结果中。该团队还利用自动和手动测试对一系列主题的对抗性动态探测对模型进行压力测试,在理解和评估潜在模型风险方面取得了进展。

为消除 AI 模型的偏见,Meta 将继续提高 Llama 的响应能力,以便它能够回答问题,能够对各种不同的观点做出回应而不作任何评判,并且不会偏袒某些观点。经改进,Llama 4 的性能明显优于 Llama 3,并且可与 Grok 相媲美:

Llama 4 对有争议的政治和社会话题的拒绝较少(从 Llama 3.3 中的 7% 降至不到 2%)。

Llama 4 在拒绝回答提示方面明显更加平衡(在一系列有争议的热门问题中,不平等回答拒绝的比例现在不到 1%)。

Meta 还致力于让模型能够以像人类一样的速度、以个性化的方式做出回复。Llama 4 经过了优化以满足这些需求。

来源:Meta

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

flash 芯片 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论