作者 | 杨依婷
编辑 | 包永刚
当地时间 10 月 9 日,英特尔正式披露了代号为 Panther Lake 的英特尔酷睿 Ultra 处理器(第三代)的架构细节,这款芯片承载着英特尔在制造工艺上重返领先地位的雄心,也是英特尔实现跨越式升级的一代产品,兼具了高性能和高能效的优势,令人充满期待。
Panther Lake 基于最新的 intel 18A 制程工艺打造,首次将 RibbonFET(全环绕栅极晶体管技术)和 PowerVia(背部供电技术)这两项关键技术结合,并配合 Foveros-S 封装技术进行整体堆叠设计,将于今年在亚利桑那州的 Fab52 晶圆厂进入大规模量产。
RibbonFET 作为新一代晶体管结构,将充分释放晶体管的开关性能与密度潜力;而 PowerVia 则通过将供电网络移至晶圆背面,扫清了传统布线对芯片性能与信号完整性的干扰。二者相辅相成,共同支撑起了 Intel 18A 在密度和能效上的同步飞跃。
根据英特尔披露的数据,相较于上一代工艺,Intel 18A 在相同功耗下可带来超过 15% 的每瓦性能提升;在达到相同性能的前提下,功耗则可降低超过 25%。与此同时,芯片单元密度提升至上一代的 1.3 倍——这意味着在同等面积的芯片上,英特尔能集成更多晶体管,为更复杂的计算单元提供技术基础。
而对于 Panther Lake,英特尔技术专家告诉雷峰网,其设计理念旨在 " 打造出一个兼顾效率和性能的均衡平台 ",以适配更具多样性的用户使用场景。
这一 " 均衡平台 " 的理念,在性能数据上得到了具体体现:在单线程负载条件下,相比 Lunar Lake 和 Arrow Lake H,Panther Lake 在相似性能下可降低 40% 功耗;在相似功耗下,性能提升约 10%。在多线程场景中,Panther Lake 相似性能下的功耗比 Arrow Lake H 低 30%,而在相似功耗条件下,其性能相较 Lunar Lake 提升 50%。
如果要用一句话概括 Panther Lake 的优点,英特尔公司客户端计算事业部副总裁兼中国区总经理高嵩给出了答案:"Panther Lake 汲取了 Lunar Lake 高能效和 Arrow Lake 强性能的优势,为用户呈现更强的 AI PC 体验。"
在这个目标下,Panther Lake 对包括 CPU、GPU 和 NPU 在内的核心模块上进行了结构性重构。
兼具 Lunar Lake 高能效 +Arrow Lake 强性能,Panther Lake 全能提升
在 CPU 架构设计上,Panther Lake 并未颠覆自 Meteor Lake 确立的 " 三层混合架构 " ——即由性能核(P-Core)、能效核(E-Core)与低功耗能效核(LPE-Core)构成的算力组合。然而,其核心思路已从简单的核心数量堆砌,转向了更为深刻的精细化分工与战略性增强。
正如英特尔的技术人员向雷峰网所阐释的:" 在 Panther Lake 上,三个层级的混合核心的策略是有侧重性的,每个核心都在扮演着独特的角色。"
这一理念清晰地体现在其角色定义中:性能核负责单线程响应与日常生产力场景的高响应能力;能效核着力于多线程与并行计算的吞吐能力,如游戏与内容创作类任务;低功耗能效核则定位为提升整体能效、优化日常功耗表现的常驻算力层。
在此框架下,Panther Lake 对每一类核心都进行了针对性的架构升级与配置调整。
在性能核方面,Panther Lake 使用的核心代号为 Cougar Cove。与上一代的 Lion Cove 相比,英特尔将单核的 L3 缓存由 12MB 扩充到 18MB,并对转址旁路缓冲器(TLB)做了约 1.5 倍的容量提升;同时,英特尔在电源管理中引入了 "AI 启发式学习算法 " 的策略,以实现对内部硬件资源与功耗分配的更精细化调控。
能效核代号为 Darkmont,这是在 Skymont 基础上的演进。Darkmont 在架构上做出了包括 L2 缓存扩容至 4MB、保持 128-bit 带宽等一系列调整,并提升了微码(Nanocode)的性能,使得能效核能够覆盖比 Arrow Lake 更广泛的应用场景,在降低执行延迟的同时提升了整体效率。
此外,Cougar Cove 与 Darkmont 所用的分支预测与内存消歧能力均有所增强——分支预测的改进旨在提高预测准确性并降低响应延迟,内存消歧则允许更多安全的乱序或并行内存访问,从而提升 CPU 与内存之间的带宽利用效率。英特尔技术专家表示,Panther Lake 在预测准确率与延迟控制上均进行了同步强化。
在完成核心微架构的增强之余,Panther Lake 也规划了多样化的核心配置以覆盖不同市场。
其中,8 核配置与 Lunar Lake 一致,由 4 个性能核与 4 个低功耗能效核组成;16 核配置在此基础上增加了 8 个能效核。
16 核配置中,所有核心均位于同一个三级缓存环上,并共享该缓存层,每个性能核拥有独立的二级缓存,每四个能效核共享 4MB 二级缓存,低功耗能效核也配置有 4MB 二级缓存,相比 Meteor Lake 和 Arrow Lake 容量更高,使其可承载的任务类型范围有所扩大。
此外,英特尔对硬件线程调度器进行了关键升级。英特尔技术专家表示,其核心改进在于两方面:首先,根据 Panther Lake 三类核心的新特性,优化了线程分类模型,为操作系统提供了更精准的调度依据;其次,将 OEM 电源模式等系统级偏好纳入调度决策,使反馈机制更贴合用户实际场景与性能需求。
要实现硬件潜力在用户体验层面的最终释放,同样离不开系统软件层的深度协同。Panther Lake 构建了一个统一的管理堆栈:OEM 厂商设定的性能模式(如 " 野兽模式 " 或 " 性能模式 ")可通过英特尔提供的 DTT 软件或微软的 PPM 机制,转化为具体的 CPU 行为策略,并经由 SoC 电源管理直达硬件线程调度器。
这一切都指向一个目标:让正确的任务,在正确的时间,运行在正确的核心上,最终兑现其 " 均衡平台 " 的设计承诺。
Xe3 GPU 性能提升 50%,AI 性能高达 120TOPS
英特尔的 GPU 经历了从 Xe 到 Xe2 持续演进,现在正式进入了 Xe3 时代。
Panther Lake 搭载的是第一代 Xe3 集成显卡,而 Xe2 对应的则是 Lunar Lake 的集成显卡和 Battlemage 的独立显卡。
与 Xe2 相比,英特尔在 Xe3 架构中将每个渲染切片内的 Xe 核心数量从 4 个提升至 6 个,并从引擎到切片进行了全面的优化。
具体来看,每个 Xe 核心提供 8 个 512 位矢量引擎和 8 个 2048 位 XMX 引擎。在 Xe 矢量引擎中,Xe3 的线程数增加了 25%,并添加了可变寄存器分配,提升了 Xe 矢量引擎的使用效率,使得相同的硬件能够支持更多、更快的负载。同时,Xe3 还支持原生 FP8 反量化,以及 SIMD16 原生 ALU、三路并发调度、扩展数据指令集与 FP64,并且支持 Xe 矩阵扩展。
而在 XMX AI 加速引擎中,Xe3 支持 120TOPS 的算力,每个时钟周期可执行 1024 个 XMX TF32 操作,支持 2048 个 XMX FP16/BF16 运算,4096 个 XMX INT8 运算和 8192 个 XMX INT4/INT2 运算,相较于上一代有显著提升。
此外,为了满足多元化的场景需求,Panther Lake 提供了两种 GPU 规格:入门级的 4Xe GPU,以及英特尔目前规模最大的 12Xe GPU。
4Xe GPU 配置包含 4 个 Xe 核心、32 个 XMX 引擎、4MB L2 缓存和 1 组几何管线等基础模块;12Xe GPU 则将 Xe 核心数量扩展至 12 个,并配备 96 个 XMX 引擎、2 组几何管线、12 个采样器、12 个光线追踪单元和 4 个像素后端。
值得注意的是,与上一代 8MB L2 缓存的 Xe2 架构相比,L2 缓存容量在 12Xe 版本上被提升至 16MB,使 DDR 访存压力减少约 17%~36%。
架构与规格的全面提升,最终转化为显著的性能增益。根据英特尔提供的数据,Xe3 架构相较 Lunar Lake 的 Xe2,在总体性能表现上可实现超过 50% 的提升;与 Arrow Lake H GPU 相比,每瓦性能提升超过 40%。
NPU 面积效率提升 40%,原生支持 FP8
在 Panther Lake 全面升级的计算架构中,NPU 是专为 AI 负载设计的计算单元,全新的 NPU5 架构在继承 NPU4 能效优势的基础上,实现了芯片面积效率与针对 AI 负载的双重优化。
在 AI 计算中,矩阵运算是最核心的要义,MAC 单元规模决定了矩阵运算的并行密度,即 MAC 单元越大,计算密度和运算效率就越高。
基于这一原理,NPU5 做出了一项关键调整——它将每个 Slice 中的神经单元数量从 6 个精简至 3 个,但每个神经计算引擎的计算能力却实现翻倍。这种设计,使得 NPU 在相同的逻辑区域内能够释放出更高的矩阵执行效率,从而在芯片面积与算力输出之间找到了更优的平衡点。
从结构配置来看,NPU5 的每个 Slice 集成了 3 个神经计算引擎,提供 12K 的矩阵运算能力、4.5MB 的暂存器内存、6 个 SHAVE DSP 以及 256KB 的 L2 缓存。
与 Lunar Lake 的 NPU4 相比,这些指标均有不同程度的提升,但最显著的进步体现在面积效率上:NPU5 每平方毫米可释放的 TOPS 能力提升超过了 40%,这意味着英特尔在有限的芯片空间内成功挤压出了更多的 AI 算力。
此外,考虑到 AI 负载对精度并不敏感,尤其在推理任务中,8bit 量化计算在绝大多数场景下已能保证输出结果的可用性。为此,NPU5 在架构层面创新性地加入了原生 8bit 计算支持。这一设计使得在相同面积与功耗条件下,NPU5 能够获得更高的有效执行吞吐,为用户带来近乎翻倍的计算能力,同时将精度损失控制在可接受范围内。
值得注意的是,Panther Lake 所搭载的 NPU5 相比 NPU4 的峰值性能并没有进行大幅提升,NPU 4 为 48TOPS,NPU 5 为 50TOPS,但面积效率实现了高达 40% 的提升。
雷峰网了解到,这主要是从这个产品的角度去考量,由于 Panther Lake 的 GPU 的 AI 性能可以高达 120TOPS,且 AI PC 上超过 50% 的 AI 负载可以使用 GPU 处理,在这一代产品上大幅提升 NPU 的面积使用效率,更能兼顾性能和功耗,能更好满足 Agentic AI 的需求,通过 XPU 的策略产品的收益将会更高。
整体来看,Panther Lake 在 CPU、GPU 与 NPU 三条计算路径完成结构更新后,其平台总算力可达到 180TOPS,其中 CPU 约 10TOPS、NPU 约 50TOPS、GPU 约 120TOPS。这一算力结构并非简单堆叠,而是通过为不同类型的 AI 负载分配各自适配的硬件执行单元形成的能力组合:CPU 负责响应敏感的轻量级任务,NPU 覆盖持续运行的低功耗推理场景,GPU 用于应对高吞吐量计算。
Panther Lake 的 1+1+1>3
从制造到微架构到革新,从 CPU 到 GPU 再到 NPU 的全面升级,都是让 Panther Lake 能够实现兼具 Lunar Lake 高能效 +Arrow Lake 强性能的关键,也正是通过通盘的考虑,以及 XPU 的策略,Panther Lake 才能拥有巨大的吸引力。
所以,除了 CPU、GPU 和 NPU 三大核心算力的提升,Panther Lake 还引入了全新的 Wi-Fi7 特性,支持 5GHz 的频段,信道达到 320MHz,同时支持 4K 的 QAM 调制,支持跨多个信道的并发操作以及 WPA3 安全性加密,和上一代产品相比,提高了性能、可靠性、安全性,也减少了客户端的延迟。此外,Panther Lake 还支持最新蓝牙 6.0 与 LE 音频,功耗降低高达 50%,并显著提升了音频质量与多设备连接能力。
影像方面,Panther Lake 集成了最新的 IPU 7.5 图像处理单元,能够直接调用 NPU、GPU 等计算资源进行协同 AI 处理,并支持高达三个摄像头并发工作。
目前,Panther Lake 已进入量产倒计时阶段,技术路径已经落地,从制造到设计的革新,让 Panther Lake 成为了一款不止是小幅迭代,而是跨越式升级的产品,也有理由对其在市场上的竞争力充满信心,量产后的实际功耗曲线和 AI 场景表现会给出作中的答案。
登录后才可以发布评论哦
打开小程序可以发布评论哦