NVIDIA 88核心Vera CPU开卖：第一次正面叫板Intel、AMD

快科技 3 月 17 日消息，NVIDIA GPU 可以说天下无敌，CPU 就比较低调了，一直扮演辅助配角，但从现在开始就不是了！

GTC 2026 大会上，NVIDIA 公布了下一代数据中心 CPU Vera 的更多细节，并宣布它公开对外销售，正面向 Intel、AMD 等发起了挑战。

Vera CPU 代号 "Olympus" ( 奥利巴斯 ) ，底层架构是基于 ARMv9.2-A 指令集的自研设计，而上代 Grace 还是公版内核。

流水线包括 10 发射的指令解码单元、每时钟周期 2 次分支预测的神经分支预测器、定制的图数据库分析预取引擎等。

单颗 88 个核心，支持 176 线程，还有 162MB 三级缓存，而上代 Grace 为 72 核心 144 线程。

NVIDIA 声称，Vera IPC 性能对比上代 Grace 大幅提升了 1.5 倍，结合创新的高带宽设计，性能相比标准 CPU 高出 50％，号称拥有当前最快的单线程性能。

同时，它采用了空间多线程技术 ( spatial multi-threading ) ，不对执行单元、缓存和寄存器文件等关键部件进行时间片轮转 ( time-slicing ) ，而是对流水线中的各类组件进行物理隔离，避免与同一核心上运行的其他线程争抢资源。

这与传统同步多线程 ( SMT ) 的时间片轮转、线程轮流使用资源的做法截然不同。

空间多线程技术可以在执行单元空闲时，从其他线程拉取指令，从而提升指令级并行度 ( ILP ) 、吞吐量与性能可预测性，确保资源得到充分利用。

简单地说，它可以两个线程在单个核心上真正同时运行，而传统 SMT 的本质仍是轮流执行，这对多用户并发环境尤为有利。

基于这一技术，Vera 的全部 88 个核心都放置在于单一域内，不会像 x86 处理器那样出现非一致内存访问 ( NUMA ) 而大幅增加延迟，对延迟、可预测性、带宽、编程易用性等都意义重大。

NVIDIA 没有披露其中的更多细节，但是 Vera 搭载了新一代的 SCF ( 可扩展一致性互连 ) ，基于上代 Grace 中的 CMN-700 一致性网格网络改进而来，但是考虑到 Arm 已经升级到了最新的 Neoverse CMN S3 网格，Vera 大概率用的就是它，或者定制版本。

基于这种互连设计，Grace 支持的网格内存吞吐量为 546GB/s，平均每个核心 7.6GB/s。

Vera 直接翻倍到了 1.2 TB/s，平均每个核心接近 14GB/s，尤其是网络负载不均衡时，单个核心最高可以获得 80GB/s。

此外，Vera 还搭载了 NVLink-C2C 互联接口，吞吐量最高 1.8TB/s，是上代的两倍，并相当于 PCIe 6.0 整整七倍，并支持双路配置，当然也支持 PCIe 6.0、CLX 3.1。

根据 NVIDIA 官方数据，在脚本执行、编译、数据分析、图分析、高性能计算等场景中，Vera 的性能相比上代 Grace 提升了 1.8-2.2 倍。

NVIDIA 同时发布了全新 Vera CPU 机架设计，单个机柜集成 256 颗液冷散热 CPU，总计 45056 个线程，同时还有 74 颗 Bluefield-4 DPU、ConnectX SuperNIC 网卡，配备最多 400TB LPDDR5 内存，带宽 300TB/s。

NVIDIA 声称，它支持 22500 个可彼此独立运行工的并发 CPU 环境。

Meta 已宣布将引入 Vera CPU 机架方案，NVIDIA 生成也会向阿里巴巴、甲骨文、Coreweave、Nebius 等超大规模云厂商提供。

Vera CPU 现已全面量产，计划今年下半年开始交付。

这标志着，经过 Grace 的积累和沉淀，NVIDIA Vera 开始正式进入 CPU 直销市场，不但在传统领域与 Intel、AMD 直接竞争，同时与全球超大规模云厂商所用的各类定制 Arm 处理器展开角逐。

宙世代