IT之家 04-06
Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 4 月 6 日消息,Meta   现已发布旗下最新   Llama 4 系列   AI 模型,包含 Llama 4 Scout、Llama 4 Maverick 和   Llama 4 Behemoth,Meta 透露相应模型都经过了 " 大量未标注的文本、图像和视频数据 " 的训练,以使它们具备 " 广泛的视觉理解能力 "

目前,Meta 已将系列模型中的 Scout 和   Maverick 上架到   Hugging Face(点此访问),而 Behemoth 模型则还在训练中。其中 Scout 可以在单个英伟达   H100 GPU 上运行,而   Maverick 则需要英伟达   H100 DGX AI 平台或 " 同等性能的设备 "。

Meta 表示,Llama 4 系列模型是该公司旗下首批采用混合专家(MoE)架构的模型,这种架构在训练和回答用户查询时的效率更高,所谓 " 混合专家架构 " 基本上是将数据处理任务分解为子任务,然后将它们委派给更小的、专门的 " 专家 " 模型。

例如,Maverick 总共有   4000 亿个参数,但在   128 个 " 专家 " 模型中只有   170 亿个活跃参数(参数数量大致与模型的问题解决能力相对应)。Scout 有   170 亿个活跃参数、16 个 " 专家 " 模型以及总计   1090 亿个参数。

不过值得注意的是,Llama 4 系列中没有一个模型是像   OpenAI 的   o1 和   o3-mini 那样真正意义上的 " 推理模型 "。作为比较," 推理模型 " 会对其答案进行事实核查,并且通常能更可靠地回答问题,但因此也比传统的 " 非推理 " 模型花费更长的时间来给出答案。

Meta 内部测试显示,Maverick 模型最适合用于 " 通用   AI 助手和聊天 " 等应用场景,该模型在创意写作、代码生成、翻译、推理、长文本上下文总结和图像基准测试中表现超过了   OpenAI 的   GPT-4o 和谷歌的   Gemini 2.0 等模型。然而 Maverick 与谷歌的 Gemini 2.5 Pro、Anthropic 的   Claude 3.7 Sonnet 和   OpenAI 的   GPT-4.5 等功能更强大的最新模型相比仍有一定进步空间。

而 Scout 的优势则是总结文档、基于大型代码库进行推理。该模型支持 1000 万个词元(" 词元 " 代表原始文本的片段,例如单词 "fantastic" 可拆分为 "fan"、"tas" 和 "tic"),因此一次可以处理 " 多达数百万字的文本 "。

IT 之家注意到,Meta 还进一步预告了其 Behemoth 模型,据该公司称,Behemoth 有   2880 亿个活跃参数、16 个 " 专家 " 模型,总参数数量接近   2 万亿个。Meta 的内部基准测试显示,在一些衡量解决数学问题等科学、技术、工程和数学(STEM)技能的评估中,Behemoth 的表现优于   GPT-4.5、Claude 3.7 Sonnet 和   Gemini 2.0 Pro,但不如   Gemini 2.5 Pro。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 英伟达 翻译 it之家
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论