苹果AI终于来了！从2.7到30亿四款大模型代码全开源，AI技术持续“狂飙”

（图片来源：Apple 官网）

苹果公司突然公布了一则大新闻。

北京时间 4 月 25 日凌晨，苹果在 Hugging Face 平台上发布一个 " 具有开源训练和推理框架的高效语言模型 "，名为 OpenELM。

据了解，OpenELM 有四种尺寸：2.7 亿、4.5 亿、11 亿和 30 亿个参数版本，定位于超小规模模型，而微软 Phi-3 模型为 38 亿。这种小模型运行成本更低，可在手机和笔记本电脑等设备上运行。

同时，在 WWDC24 开发者大会之前，苹果彻底开源了 OpenELM 模型权重和推理代码，数据集和训练日志等。而且，苹果还开源了神经网络库 CoreNet。

早在今年 2 月，苹果公司 CEO 蒂姆 · 库克（TimCook）就表示，苹果生成式 AI 功能将于 " 今年晚些时候 " 推出，有消息称即将在 6 月发布 iOS 18 可能是苹果 iOS 史上 " 最大 " 的更新，而 9 月也将推出首款 AI iPhone 设备。

如今，苹果似乎在新一轮 AI 浪潮快到尾声的时刻追赶上了行业脚步。

代码 : https://github.com/apple/corenet

hf: https://huggingface.co/apple/OpenELM

论文 : https://arxiv.org/abs/2404.14619

预训练 tokens 数量减一半，11 亿参数苹果模型效果却比竞品更精准

随着 ChatGPT 风靡全球，近几个月来，三星、谷歌、小米等手机厂商全面推进大语言模型在手机、平板等端侧上的使用，包括照片处理、文字处理增强等，并形成一大卖点。而苹果很少透露并极少有类似的自带功能，主要是用第三方工具做到类似效果。

今年 2 月财报会议上，库克首次公布生成式 AI 计划，并将在今年晚些时候将 AI 技术集成到其软件平台（iOS、iPadOS 和 macOS）中。

库克表示，" 我只想说，我认为苹果在生成式 AI 和 AI 方面存在着巨大的机会，无需透露更多细节，也无需超出自己的预期。展望未来，我们将继续投资于这些和其他将塑造未来的技术。其中包括 AI，我们继续在 AI 领域花费大量时间和精力，我们很高兴能在今年晚些时候分享我们在该领域正在进行的工作的细节。我们对此非常兴奋。"

实际上，自年初至今，苹果在生成式 AI 领域动作不断。今年 3 月，苹果技术团队发表论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》，首次披露苹果大模型 MM1，涵盖 300 亿参数、支持多模态、支持 MoE 架构，超半数作者属于华人。

如今，针对手机、平板等端侧领域，苹果真正的开源模型终于来了。

据论文显示，苹果开源了大语言模型 OpenELM，有指令微调和预训练两种模型版本，共有 2.7 亿、4.5 亿、11 亿和 30 亿 4 种参数，提供生成文本、代码、翻译、总结摘要等功能。

虽然最小的参数只有 2.7 亿，但苹果使用了包括 RefinedWeb、去重的 PILE、RedPajama 的子集和 Dolma v1.6 的子集在内的公共数据集，一共约 1.8 万亿 tokens 数据进行了预训练，这也是其能以小参数表现出超强性能的主要原因之一。

例如，11 亿参数的 OpenELM，比 12 亿参数的 OLMo 模型的准确率高出 2.36%，而使用的预训练数据却只有 OLMo 的一半。

在训练流程中，苹果采用了 CoreNet 作为训练框架，并使用了 Adam 优化算法进行了 35 万次迭代训练。而苹果的 MobileOne、CVNets、MobileViT、FastVit 等知名研究都是基于 CoreNet 完成的。

苹果在论文中还表示，与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同，苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架，包括训练日志、多个检查点和预训练配置。同时，苹果还发布将模型转换为 MLX 库的代码，以便在苹果设备上进行推理和微调。

" 此次全面发布旨在增强和巩固开放研究社区，为未来的开放研究工作铺平道路。" 苹果研究团队表示。

此外，OpenELM 不使用任何全连接层中的可学习偏置参数，采用 RMSNorm 进行预归一化，并使用旋转位置嵌入编码位置信息。OpenELM 还通过分组查询注意力代替多头注意力，用 SwiGLU FFN 替换了传统的前馈网络，并使用了 Flash 注意力来计算缩放点积注意力，能以更少的资源来进行训练和推理。同，苹果使用了动态分词和数据过滤的方法，实现了实时过滤和分词，从而简化了实验流程并提高了灵活性。还使用了与 Meta 的 Llama 相同的分词器，以确保实验的一致性。

这次，苹果很有诚意将代码开源，一开到底，把所有内容都贡献出来了。仅 1 天多的时间，该模型 GitHub 平台上就获得超过 1100 颗星。

而目前，大模型领域主要分为开源和闭源两大阵营，国内外知名闭源的代表企业有 OpenAI、Anthropic、谷歌、Midjourney、百度、出门问问等；开源阵营有 Meta、微软、谷歌、商汤、百川智能、零一万物等。

苹果作为手机闭源领域的领导者，此次却罕见地加入开源大模型阵营。有分析认为，这可能在效仿谷歌的方式先通过开源拉拢用户，再用闭源产品去实现商业化营利。

同时，这也表明苹果进军 AI 大模型领域的坚定决心。

作为同为端侧模型、开源模型企业，商汤科技联合创始人、首席科学家王晓刚近期对钛媒体 App 表示，开源还是对于整个社区的发展还是非常重要的，是一个重要驱动力。最终大模型的发展包括各种应用，还是要整个社区共同去推动的。对于大模型的应用也分为不同的层次，这么多行业对应用的需求也是不一样的，丰富的开源社区非常重要。

AI 技术持续 " 狂飙 "，OpenAI 获得了全球第一块 DGX H200

不止是苹果，今天凌晨，国内外 AI 技术依然 " 狂飙 "，相关消息满天飞。

今晨，OpenAI 联合创始人、COO Greg Brockman 发推文表示，英伟达向该公司移交全球范围内第一块 DGX H200，此举旨在 " 推进人工智能、计算技术与人类的发展 "。

同时，他也发布了一张合影，还包括英伟达 CEO 黄仁勋、OpenAI CEO 奥尔特曼（Sam Altman），看起来三人非常开心。

早在 2016 年，OpenAI 刚成立不久，黄仁勋便亲自将全球首台装备了 8 块英伟达 P100 芯片的超级计算机 DGX-1 送到了 OpenAI 的办公室。

这台价值逾百万美元的 DGX-1，是黄仁勋带领英伟达 3000 名员工，历时三年精心打造的成果。它极大地提升了 OpenAI 的计算能力，将原本需要一年的训练时间缩短至仅一个月。

当时，OpenAI 还处于一个初创阶段的非营利机构，这台超级计算机无疑是一份极具分量的礼物。马斯克、Sam Altman 以及其他早期员工对此感到无比激动，纷纷在这台 DGX-1 上留下了自己的签名。

2023 年 11 月 13 日，英伟达发布了新一代 AI GPU —— NVIDIA Grace Hopper H200 超级芯片，其内存容量和带宽分别是 H100 的两倍和 1.4 倍，最高支持 19.5TB，AI 性能达 128 petaFLOPS FP8，预计 2024 年第二季度开始供货。

黄仁勋称，这是拥有万亿规模的新型 AI 超级计算机，为巨型 AI 模型提供具有线性可扩展性的海量共享内存空间，能够在生成式 AI 时代发挥巨大潜力。

如今，黄仁勋亲手将全球第一块 DGX H200 送给了 OpenAI。

同时，据 CTech 报道，英伟达以约 7 亿美元收购了以色列 AI 基础设施编排和管理服务 Run:ai，据悉，Run:ai 成立于 2018 年，迄今已筹集 1.18 亿美元，同时英伟达还收购了 Deci 公司。

另外，今天凌晨，拥有全球首个 AI 代码工程师的背后企业 Cognition 被曝完成了一轮 1.75 亿美元的融资，由 Founders Fund 领投，仅仅一个月内，公司估值从 3.5 亿美元增长到 20 亿美元，引发关注。

Gartner 分析师 John-David Lovelock 表示，随着 Anthropic、OpenAI 等第一梯队的玩家占据主导地位，AI 投资范围正在 " 向外延展 "（spreading out）。

" 数十亿美元的投资数量已经放缓，而且几乎已经结束；热钱涌向了新方向—— AI 应用。" 上述分析师表示，" 大模型需要大量投资，但市场现在更多地受到科技公司的影响，这些公司将利用现有的 AI 产品、服务和产品来构建新产品。"

Greylock 合伙人 Seth Rosenberg 认为，人们对于资助 AI 领域的 " 大批新玩家 " 的兴趣本来就较很小。在这个周期的早期阶段，投资基础模型资本非常密集，相比之下，AI 应用和智能体所需的资本较低，这可能是绝对美元融资额下降的原因。

Thomvest Ventures 董事总经理 Umesh Padval 将 AI 整体投资的缩减，归因于增长低于预期。他表示，最初的热情已经让位于现实—— AI 面临一部分技术挑战，一部分上市挑战，可能需要数年时间才能解决并完全克服。

"AI 投资放缓反映出人们认识到，我们仍在探索 AI 技术发展及其在各行业应用的早期阶段。虽然长期市场潜力仍然巨大，但最初的热情已被在实际应用中推广 AI 技术的复杂性和挑战所削弱……这表明投资环境更加成熟和敏锐。"Umesh Padval 表示。

如今，AI 持续 " 狂飙 "，但整个市场方向已快速转变，端侧模型、AI 应用、行业大模型等都将成为今年整个 AI 领域新趋势。

（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）

宙世代

智慧云

相关标签