从左到右依次为苹果高管阿马尔 · 苏布拉马尼亚、迈克 · 洛克威尔、塞巴斯蒂安 · 马里诺 - 梅斯以及克雷格 · 费德里吉,图片经由 AI 处理
文丨苏扬
编辑丨徐青阳
当地时间 6 月 8 日,苹果举办 2026 年 WWDC,除了有关 iOS 的 AI 能力集成和独立的 Siri 两个热点之外,另一个关注点则是这些能力背后的基础模型。
苹果此次展示的是第三代 Apple Foundation Models(AFM),包含 2 款端侧模型和 3 款运行在私有云计算平台上的模型。
苹果称,这一代模型与谷歌合作定制,其中多款模型在训练和优化阶段借助 Gemini 模型进行 " 精炼 ",非在 iOS 中直接部署 Gemini 模型或 Gemini 客户端代码,且明确强调针对苹果芯片进行了优化。
另外,AFM 3 Cloud Pro 这款云端模型单独标注为 " 为英伟达 GPU 进行优化 "。
01 全家桶里的 5 款模型
根据苹果官方披露的消息,本次发布的第三代模型,端侧模型包括 AFM 3 Core 和 AFM 3 Core Advanced,服务器模型则分为 AFM 3 Cloud、ADM 3 Cloud 以及 AFM 3 Cloud Pro,这里的 AFM 全称也就是 Apple Foundation Model。
五款模型中,AFM 3 Core 属于前代产品的常规升级,作为下一代端侧主力,性能实现了显著提升。
AFM 3 Core Advanced 的技术路线最受关注。
这是一款 200 亿参数的稀疏模型,专为苹果性能最强的芯片优化,原生支持多模态,涵盖语音合成、语音识别和视觉理解。
200 亿参数模型要在手机上运行,传统做法要求将所有参数常驻内存,在硬件上根本不可行。在这个问题上,苹果的解法是 Instruction-Following Pruning 技术。
蓝色为 DRAM 中静态专家,橙色为动态专家,空心为未激活专家
概括来说,就是将模型的注意力层等核心常驻权重置于 DRAM 运存中,而 FFN 专家参数则存储在相对低成本 NAND 闪存中。
推理时仅根据输入特征,路由并加载少量选中的 FFN 专家到 DRAM 参与计算,在保留 MoE 稀疏激活效率的同时,降低了模型部署对 DRAM 容量的需求,实现高效推理。
这种架构其实在苹果 2023 年的论文里面有提及,当时苹果就提出了 LLM in a Flash 的概念:用 NAND 闪存(Flash)存大模型参数,按需加载到 DRAM,在端侧跑超过内存大小的 LLM,解决 " 闪存到内存带宽慢 " 的瓶颈。
苹果 AI 副总裁阿马尔 · 苏布拉马尼亚(Amar Subramanya)在 WWDC 技术交流会上,解释了这种设计与常规方案的区别。
苏布拉马尼亚表示,典型的云端稀疏模型需要逐词交换权重,但闪存到运存的带宽太慢,无法支撑这种操作频率。所以,AFM 3 Core Advanced 针对整个提示只做一次路由决策,一次性选定参数子集,大幅降低加载成本。
每次响应激活的参数规模在 10 亿到 40 亿之间,具体数量由任务难度决定。不同请求之间可增量加载权重,该模型不管理多个小模型,也非单一固定配置。
苹果将这种特性称为 " 推理时间弹性(inference-time elasticity)"。
AFM 3 Core 和 AFM 3 Core Advanced 撑起了苹果设备本地处理的大部分场景。而当本地算力不够时,请求就会转移到苹果的私有云计算平台里部署着三个云端模型。
主力模型 AFM 3 Cloud,针对速度、效率和性能优化。它继承了去年苹果引入的并行轨迹混合专家架构,但今年在此基础上实施了几项关键升级,稳定了训练过程,也提高了模型在长上下文窗口中推理和准确回忆信息的能力。
用苹果的话说,这是私有云计算支持下的多模态推理的一次重大进步。
在图像处理方面,苹果推出了 ADM 3 Cloud 模型,用于驱动高质量的图像生成与编辑。该模型具备较强的可控性和参数效率,能够泛化处理不同的纵横比和分辨率,并在原生层面支持图像创建、编辑以及 Genmoji 表情生成。
在架构设计上,ADM 3 Cloud 会借助苹果基础模型家族中更广泛的模型来指导创作和编辑过程。针对更具体的下游编辑体验,例如照片应用中的空间重构图功能,以及影像游乐场中基于触控的图像修改与个性化生成,则通过专门的适配器来实现。
服务器端的压轴角色叫 AFM 3 Cloud Pro,这是苹果功能最强的模型,专门为智能体工具使用和复杂推理这种最苛刻的场景准备。阿马尔 · 苏布拉马尼亚对 AFM 3 Cloud Pro 的定位是:性能与谷歌 Gemini 前沿模型相当。
这三款模型分工明确,AFM 3 Cloud 负责日常请求的高效响应,ADM 3 Cloud 把图像创作和编辑的体验拉满,而 AFM 3 Cloud Pro 则处理那些需要深度推理的任务。
02 能力进化了多少?
WWDC 之后,苹果也在官网公布了这一代 5 款模型的基准测试数据。
在不同语言地区,相比前代模型,用户更喜欢 AFM 3 Core 和 AFM 3 Cloud 的回复
在通用文本能力与图像理解上,第三代苹果基础模型相较于去年的第二代模型实现了全线突破。
其中,AFM 3 Core 的整体通用文本能力(处理日常普通文本任务)大幅改进。在文本人工评估测试(Human Evaluation on Text)中,当把 AFM 3 Core 和前代模型针对同一批提示词生成的回答放在一起让人类评审员二选一时,评审员有 45.6%(指全球综合平均偏好比例,以下相同,2025 年基线模型仅为 23.3%) 的比例选择了新版模型的回答更好。
在英文图像理解测试中,用户更倾向于选择 AFM 3 Core 和 AFM 3 Cloud 的回复
在图像理解方面,其用户偏好比例更是超过了 61%,能够更精准地识别、提取并推理视觉内容。
AFM 3 Cloud 的通用文本能力的偏好比例从去年的 8.7% 飙升至 64.7%,在所有支持的全球语言区域中均实现了飞跃。苹果的评估显示,其整体响应满意度相对提升约 36%,指令遵循性能提升 21%。同时,其图像理解偏好比例由去年的 9.6% 提升至 37.8%。
按照苹果官方的说法,AFM 3 Cloud Pro 在 Cloud 版本的基础上更进一步,文本和图像理解的整体满意度分别再次获得 10% 和 14% 的相对提升,特别是在数学等特定任务类别中,性能相对高出 14%。
除了底座大模型的升级,苹果还通过两组核心指标展示了由 AFM 3 Core Advanced 驱动的日常交互体验更新。该功能在高效的 10 亿参数激活规模下运行,在语音生成和语音识别上均取得突破。
AFM 3 Core Advanced 在文本转语音和日常会话测试中,得分大幅提升
在文本转语音(TTS)测试中, 在 5 分制平均意见分(MOS)量表中,新模型总分获得 4.15 分,比前代模型提高了 0.28 分(在 MOS 量表中,0.1 分即代表非常明显的体验改进)。在群聊通知、步行导航等日常会话场景中,其得分更是高达 4.24 分(前代模型为 3.82 分),节奏与节奏表现更加贴近人类。
在听写任务的七个质量维度上,用户都更偏爱 AFM 3 Core Advanced 的转写结果
在语音转文本(听写)测试中, 新模型在听写等功能上同样表现优异。在整体质量的并排偏好判断中,新模型以 44.7% 对 17.6% 的绝对优势碾压现有听写系统。这种优势一直延伸到了标点符号、大小写、版面布局、含义捕捉、口误和不流畅处理、风格等其余六个关键维度。
随着测试阶段的推进,苹果表示将持续优化模型表现,以确保在正式推送时为全球用户提供更出色的 Apple Intelligence 集成体验。
03 英伟达芯片与 " 隐私防护服 "
一个值得注意的细节是,AFM 3 Cloud Pro 部署在谷歌云的英伟达 GPU 上,这也是苹果模型家族里唯一针对英伟达 GPU 优化的成员,其余四款模型均在苹果自研芯片上运行。
苹果软件副总裁塞巴斯蒂安 · 马里诺 - 梅斯(Sebastien Marineau-Mes)在 WWDC 技术交流会上直言,他们希望利用英伟达的最新技术,但前提是不能破坏私有云计算的隐私铁律。
马里诺 - 梅斯确认,苹果完全控制部署在这些节点上的软件,只有苹果可以将软件推送到谷歌云的这些节点上。苹果设备仅与经过苹果签名的软件通信,即使代码运行在第三方云端,设备也只认私有云计算中的正版苹果代码。
数据不会被存储,苹果也无法访问,第三方研究人员可持续验证这些隐私属性。
苹果软件工程高级副总裁克雷格 · 费德里吉(Craig Federighi),将这套架构的核心总结为系统编排器。它负责协调三类请求来源:提供应用内操作访问的应用工具箱、用于访问个人内容以完成请求的语义索引、以及用户发出请求时的屏幕上下文。
随后,编排器会先让端侧模型尝试处理请求。如果端侧模型足以完成任务,整个过程完全在设备本地完成。只有当编排器判断请求需要更强的智能时,才会将其转移至私有云计算平台。
04 苹果与谷歌的合作边界:" 蒸馏 " 与云端部署
关于苹果与谷歌的合作,外界在 WWDC 前已有诸多猜测,但对合作深度的判断普遍存在偏差。
费德里吉在技术交流会上先用排除法划清了边界。
费德里吉强调,iOS 中没有集成 Gemini 客户端代码,也没有使用谷歌面向客户部署的 Gemini 模型;系统知识基础也不是 Google Search。对于前四款面向 Apple Silicon 的模型,苹果称它们由苹果专有数据训练,并借助 Gemini 前沿模型精炼。
唯一例外是 AFM 3 Cloud Pro:它运行在 Google Cloud 的英伟达 GPU 上,但通过苹果的 Private Cloud Compute 架构维持隐私边界。
" 我们使用的谷歌助手组件量为零。"
苏布拉马尼亚解释称,AFM Core、AFM Core Advanced、AFM Cloud 和 ADM Cloud 这四款模型," 为苹果芯片定制构建,使用专有数据训练,并利用 Gemini 前沿模型进行优化精炼 "。
这里的关键词是 " 优化精炼 ",Gemini 在训练阶段承担的是教师模型角色,苹果的模型通过学习其输出提升自身能力,而非直接部署 Gemini,而所谓的 " 优化精炼 ",其实就是经常被讨论的蒸馏。
对于一家公司既想在 AI 能力上追赶前沿水平,又不肯交出用户数据的控制权,苹果给出了新的解法。没有现成的模板可以参考,但苹果自己把它搭了出来。
特约编译金鹿对本文亦有贡献


登录后才可以发布评论哦
打开小程序可以发布评论哦