智东西 昨天
黄仁勋突袭英特尔AMD腹地,联手王兴兴,打平三大国产模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

英伟达的 AI 基础设施版图大幅扩张。

作者 | ZeR0

编辑 | 漠影

英伟达憋了许久的芯片大招,终于来了。

智东西 6 月 1 日报道,今日,在 GTC 台北大会上,英伟达创始人兼 CEO 黄仁勋穿着闪亮的黑色皮衣发表主题演讲,发布 2 款芯片、1 款桌面级 AI 超算、多款开源 AI 模型、框架、函数库,还与宇树科技联合发布了基于宇树 H2 Plus 机器人的全新人形机器人参考设计。

传闻已久的英伟达首款 Arm 架构 PC 芯片终于亮相,名为RTX Spark 超级芯片。黄仁勋宣布与微软推出全新 PC 产品线,并称 " 这是 40 年来 PC 产品线首次全面革新 ",同样的智能体处理模式还将延展到各种设备上。

他说,计算机的这次革命,重要程度不亚于普通手机演变为智能手机,英伟达已为此制定产品路线图,每一代架构(Grace Blackwell、Vera Rubin、Rosa Feynman)都将配备台式机、笔记本和工作站。

英伟达还发布了全球最强大的 Windows 平台桌面 AI 超级计算机DGX Station,以及英伟达豪赌 2000 亿美元市场的大招——专为智能体设计的Vera CPU。这正是英伟达为智能体运行开拓的两大全新市场。

Anthropic、OpenAI、SpaceX 三家 AI 巨头均率先部署 Vera CPU。

在 Q1 财报期间,英伟达曾透露全新 Vera CPU 将开启一个价值2000 亿美元的市场,预计 Vera 芯片收入将在本财年末达到200 亿美元,成为 " 第二大销售贡献者 "。

今日,黄仁勋称 Vera CPU 具有革命性意义,其产能爬坡令他非常满意,"目前的订单量已注定它将成为我们公司历史上最快速、最成功的产品发布。"

"NVIDIA Vera 是英特尔和 AMD x86_64 处理器有史以来最强大的竞争对手。"Phoronix CPU Benchmark Suite 作者 Michael Larabel 评价说。

面向智能体部署,英伟达推出迄今最强模型Nemotron 3 Ultra、企业级智能体工具箱。其中,Nemotron 3 Ultra 的智能体生产力测试分数超过或打平了三个领先的国产智能体模型智谱 GLM 5.1、月之暗面 Kimi K2.6、阿里 Qwen3.5。

面向物理 AI,英伟达开源世界基础模型 Cosmos 3、自动驾驶推理模型 Alpamayo 2 Super,并宣布成立 Cosmos 联盟。

面向 AI 工厂,英伟达宣布 Vera Rubin 全面投产,并掏出了帮 AI 工厂更稳定、节能的两大利器 DSX OS 和 DSX MaxLPS。

黄仁勋也一如既往地晒了一下英伟达庞大的 " 朋友圈 ",并继续巩固热爱美食的人设,特别感谢了在夜市的水果摊贩,还给了花娘小馆、富霸王猪脚餐厅等几家饭店名字的特写镜头。

在演讲中,黄仁勋连飙金句:

" 实用 AI 时代已经到来。"

"AI 现在是利润生成器、GDP 生成器。"

" 计算即收入。"

" 买得越多,赚得越多。"

"Token 已成为盈利的收入单位。"

" 仅仅因为芯片更便宜就选择错误的架构,是没有意义的。"

黄仁勋认为,在 AI 工厂时代,每产生 1 个 token 就能盈利,每瓦性能、可靠性和系统寿命才是核心财务杠杆。

AI 工厂每吉瓦成本是 200 亿 ~300 亿美元起步,现已攀升至 500 亿 ~600 亿美元,不久后将达到800 亿 ~1000 亿美元。这些投资必须确保一次成功。

在黄仁勋看来,AI 会减少工作岗位的说法 " 完全是无稽之谈 ",AI 反而推动了软件工程师需求的增长。

作为 GTC 惯例,英伟达的机器人生态全家福再次展出。

最后,在演讲末尾,英伟达播放了由一群人形机器人、OpenClaw 龙虾、黄仁勋数字人共同参演的音乐 MV。

01.

英伟达自研 PC 芯片登场:3nm 制程,

最高 1P 算力,能跑 1200 亿参数大模型

" 时隔 40 年,微软与英伟达将重新发明 PC(个人计算机)。" 黄仁勋宣布,英伟达与微软面向个人智能体时代重新构想 PC,推出为游戏和智能体而生的RTX Spark 超级芯片

RTX Spark 超级芯片采用台积电3nm工艺,内置700 亿颗晶体管,提供128GB LPDDR5X统一内存和1PetaFLOPS FP4 AI 算力,号称是 "史上能效最高的 RTX 芯片"。

其中,Blackwell RTX GPU 有6144 个CUDA 核心和第五代 Tensor Core,并通过 NVLink C2C 芯片间互连技术连接到与联发科合作开发的定制20 核Grace CPU。

黄仁勋将 RTX Spark 称作 " 世界上制造过的最神奇的芯片 "," 英伟达 100% 的软件栈都在其上运行 "。

RTX Spark 融合了英伟达 33 年的创新成果,为全球首款专为个人智能体打造的 Windows PC 提供动力。英伟达 CUDA 可在 RTX Spark 上原生运行。

搭载 RTX Spark 的 PC,可以使用 OptiX 和 DLSS 渲染90GB超大型 3D 场景,使用英伟达 Blackwell 解码器编辑12K 4:2:2 视频,运行具有 100 万个 token 上下文的1200 亿参数大语言模型,以及使用光线追踪、DLSS 和 Reflex 以1440p 分辨率每秒 100 帧以上的速度玩 3A 游戏。

以前使用 PC,用户要启动应用程序,点击鼠标,输入文字。现在使用 RTX Spark 和微软 Windows,用户只需提出请求,电脑就能完成工作。

此外,Adobe 为 RTX Spark 重新设计了 Adobe Photoshop 和 Premiere 的架构,新版本在创意工作流程中,可将 AI、编辑、调色和特效的处理速度最高提升至2 倍

微软与英伟达正在对整个 PC 进行全面重塑,发布了面向智能体的全新三大 Windows 产品线,涵盖笔记本电脑、台式机、桌面超算

搭载 RTX Spark 的笔记本电脑和紧凑型台式机将于今年秋季推出。

笔记本电脑厚度仅为 14mm,重量仅 3 磅,有 14 至 16 英寸多种尺寸选择,可以 24 小时不间断本地 " 养龙虾 "。

02.

全球最强桌面级 AI 超算:748GB 内存,

20P 算力,能跑万亿参数模型

英伟达今日还推出了一款适用于 Windows 的桌面 AI 超级计算机DGX Station

DGX Station for Windows由微软合作开发,基于英伟达 DGX Station 系统设计,搭载英伟达 GB300 Grace Blackwell Ultra 桌面级超级芯片,提供最高748GB统一内存、20PetaFLOPS FP4 算力、800Gbps ConnectX-8 SuperNIC 网络,与所有 Windows 软件兼容,可运行万亿参数级 AI 模型,并可同时运行数百个智能体。

它支持额外配置一张 RTX Pro 6000 工作站级 GPU,将前沿 AI 算力与光线追踪可视化相融合,用于跨创意设计和工程应用运行智能体。

DGX Station for Windows 预计将于今年第四季度由主流系统集成商上市。

黄仁勋预言,未来有一天,每个家庭都会有一台 AI 超级计算机,运行着你所有的智能体和助手。

03.

Vera CPU:88 核、

1.2TB/s 内存带宽,专为智能体设计

传统 CPU 追求每颗插槽的核心数,切片、虚拟化、按小时出租。在智能体时代,CPU 已成为 GPU 利用率的瓶颈,直接影响 token 吞吐量、时延与用户体验。

对此,英伟达推出其最先进的 CPU ——专为智能体而生的Vera CPU

Vera CPU 采用 LPDDR5X 内存(带宽 1.2TB/s)、支持 PCIe Gen6,内外带宽均达同类最高性能 CPU 的2 至 3 倍,也是首款在纠正多位错误的同时不损失带宽的 CPU

它基于英伟达第二代可扩展一致性架构,将88 个英伟达定制 Arm 核心 Olympus统一在一个单片 Mesh 网络上,在智能体工作负载上实现了最高的单线程性能与最佳能效比。

其核心并未分散在多个 Chiplet 上,核心之间的通信速度比传统 CPU 快50%。Vera 支持内存一致性,NVLink-C2C 芯片间互联可将 GPU 直连到架构,还可以将 Vera 扩展到多个插槽,在 CPU 之间实现巨大频宽。

与 Grace CPU 相比,Vera 的每个核心每时钟周期可多执行50%的指令。

与配备 DDR5 的 x86 CPU 相比,Vera 每个核心的带宽多达3 倍;与 x86 CPU 相比,峰值内存延迟降低了40%,在检索分析与沙箱执行中保持核心供给及时。

在 Python 代码分析、代码编译等常见智能体工具的行业标准基准测试中,Vera 的智能体沙箱性能是与 x86 CPU 竞品性能的1.8 倍

该处理器有四大核心设计原则:领先的每时钟指令数(IPC)/ 单线程性能、每核心带宽、总带宽以及能效。

Vera 每时钟可取指、解码并执行10 条指令,IPC 全球最高。

英伟达Olympus 核心专为现代数据中心工作负载、分支密集型 Python 运行时、工具调用和沙箱代码执行而优化。

每颗核心均为吞吐量调优:神经分支预测器可在每个周期评估两个选定分支,10-Wide 解码引擎可在每个周期代入更多工作负载,大型乱序执行引擎维持着指令的运作,新型图引擎的高阶预取器可预测下一个数据路径。

Vera 片上高速互联总线带宽达3.4TB/s,无芯粒税(chiplet tax),无跨片边界损耗,所有核心可与其他任何核心及缓存无延迟通信,不存在调度冲突。

该 CPU 已进入全面量产,并将于今年秋季通过系统合作伙伴正式上市。

Anthropic、OpenAI、SpaceX 均是 Vera CPU 的早期采用者。

在 SQL 1TB 基准测试中,Vera CPU 的 SQL 运行速度达到竞品的3 倍

Vera CPU 正在为纽约证券交易所(NYSE)运行实时流处理,实现了6 倍的性能提升。

Grace 与 Vera CPU 是 AI 领域认证程度最高的 CPU、每家企业只要与英伟达合作 AI,都将认证 Grace 和 Vera。

04.

人形机器人参考设计:

宇树机身 +Sharpa 灵巧手,开箱即用

NVIDIA Isaac GR00T 参考人形机器人是首款基于英伟达 Jetson Thor 和 Isaac GR00T 平台构建的开放人形机器人参考设计。

这个参考设计集成了宇树 H2 Plus 人形机器人、Sharpa Wave 五指灵巧手、英伟达 Jetson Thor 处理器以及 Isaac GR00T 软件和工作流程,并预装了英伟达 GR00T 1.7 人形机器人模型,开箱即用。

具体包括:

宇树 H2 人形机器人底盘:身高近 6 英尺,重 150 磅,全身有 31 个自由度,用于人体尺度测试。

双 Sharpa Wave 触觉五指灵巧手:可实现 22 个自由度的灵巧操作,使机器人在身体和手部达到 75 个自由度。

多视角传感器:包括一个头戴式立体摄像头(水平 140 度,垂直 102 度),用于近距离操作的腕部摄像头,以及一个用于运动跟踪的惯性测量单元。

全身控制:手臂扭矩高达 120N · m,腿部扭矩达 360N · m,手臂额定有效载荷为 7 公斤,峰值有效载荷为 15 公斤,举升和伸展能力更强。

英伟达 Jetson AGX Thor T5000 板载计算:配备 NVIDIA Blackwell GPU,FP4 AI 性能达 2070TFLOPS,14 核 Arm CPU,128GB 统一内存,以及可配置的 40 至 130 瓦功率范围,用于实时传感器处理和机器人推理。

支持以太网、Wi-Fi 6、蓝牙 5.2、USB 连接,并配备一系列麦克风和扬声器,用于语音交互。

电池容量为 15Ah,0.972kWh,续航时间约为 3 小时,可延长运行时间。

远程紧急停止功能,可快速安全地脱离机器人。

宇树科技已在官方公布 Isaac GR00T 参考人形机器人的全身配置:

今年年底,NVIDIA Isaac GR00T 参考人形机器人将由宇树科技提供。

NVIDIA Isaac GR00T 开发者平台还将支持宇树 G1 人形机器人。针对宇树 G1 的参考工作流程预计很快将在 GitHub 和 Hugging Face 上提供给机器人开发人员。

为什么要做这件事?

黄仁勋说,研究实验室从人形机器人制造商那里获得的机器人,尚未达到量产就绪状态,因此,实验室将大量时间和精力花在使机器人的基本功能正常运作上。

而一个能够规模化开发、配备备用零件、开箱即用的平台,将计算、软件栈、手部和机身全部集成在一起,统一设计协同运行,并配备完整的仿真能力,使研究实验室能直接开箱使用,立即投入研究。

05.

开源英伟达最强世界模型:5500 亿参数,

5 倍速度、成本降低 30%

英伟达致力于为全世界构建开源模型,让人人都能打造属于自己的智能体。

Nemotron 3 Ultra是英伟达迄今最强的新一代开源基础模型,也是面向自主智能体能力最强的模型,共有5500 亿个参数

这是全球首个基于 SSM(状态空间模型)与专家混合(MoE)混合架构的模型

它的速度是同级别领先模型的5 倍,完成相同智能体任务所需的运行成本降低30%

" 无论是总浮点运算量还是总推理时间,均优于目前最具性价比的开源模型。" 黄仁勋总结说。

目前英伟达正在研发Nemotron 4

06.

打造智能体工具包,

智能体将芯片设计验证提速 40 多倍

黄仁勋说,下面这张图是本场演讲中最重要的一张幻灯片,也是最核心的结论:

这是未来十年的应用模式、计算模式,每家公司都会采用。

如何帮助企业安全地构建和运行智能体?为此,英伟达推出了企业级智能体工具包(NVIDIA Agent Toolkit for Enterprise AI)

英伟达智能体工具包结合了大语言模型、智能体框架和企业级运行时,能为企业内部提供高度安全的环境。

所有智能体都可以使用基于NVIDIA CUDA-X 库(包括 cuDF、cuOpt、AI-Q、NeMo、PhysicsNeMo 和 CUDA-Q)的智能体 Skills

这些经过验证的英伟达智能体 Skills 可在 Claude Code 插件市场和 Hermes Skills Hub 中找到。

NVIDIA OpenShell 是这些自主智能体的安全运行时环境,为智能体操作提供独立的沙箱、集中式策略执行和治理管理网关,并可在 Ubuntu、Windows、Red Hat OpenShift 等主流企业平台上运行。

黄仁勋说,他最喜欢的智能体应用案例之一是芯片设计。

英伟达与 Cadence 合作,打造了一款芯片设计超级智能体

通过协调寄存器传输级生成、测试平台创建、回归测试和调试,这个超级智能体可自动运行数百次模拟和形式化检查,可将原本耗时数周的工作压缩到几小时,验证周期快了40 多倍

" 英伟达拥有数千名芯片设计师。我们将引入数十万名 Cadence 超级智能体与我们协同工作,加速公司发展。" 黄仁勋说。

07.

物理 AI:全新世界模型、

自动驾驶推理模型开源

物理 AI 最大的挑战是数据。对此,英伟达推出一款面向物理 AI 的开源世界基础模型Cosmos 3

Cosmos 3 基于混合 Transformer 架构,将视觉推理和跨文本、视频、图像、环境音效和动作的多模态生成功能整合到一个模型中,帮助开发者创建具有物理上下文的世界数据。

该模型是 VANTAGE-Bench 测试榜上排名第一的开放视觉语言模型。

开发者可针对不同形态和应用场景对 Cosmos 3 进行后训练(post-train),比如用于世界推理、合成数据、闭环仿真器或世界动作模型。

所有模型、代码和训练方案均已在 Hugging Face 和 GitHub 上开放。

同时,英伟达宣布成立Cosmos 联盟(Cosmos Coalition),Agile Robots、Black Forest Labs、Runway、LightTricks、Skilled AI 等部分顶尖 AI 实验室正与英伟达共同开发下一代 Cosmos。

面向自动驾驶领域,英伟达也推出了全新物理 AI 模型、框架、函数库:

(1)Alpamayo 2 Super:一款拥有 320 亿参数的开放自动驾驶推理模型,专为推理、规划、标注和评估设计。

(2)AlpaGym:一款开源闭环强化学习框架,让开发者能够在仿真环境中训练自动驾驶策略,模型动作能够真实影响后续仿真结果。

(3)OmniDreams:一款基于 Cosmos 构建的专用角色模型,可大规模生成稀有、逼真的长尾驾驶场景。

(4)全新 Omniverse NeRF 函数库:能在单块 GPU 上以 25ms 以内的速度完成真实世界的重建与渲染,使开发者可实时评估模型的感知效果。

这些发布共同为自动驾驶开发者提供了一条更快速、更安全的 L4 自动驾驶实现路径。

08.

Vera Rubin 已全面投产

今年年初发布的 Vera Rubin,现已全面投产

黄仁勋说,Vera Rubin 是英伟达史上最具雄心的项目,全公司 40000 名工程师都参与其中。

Vera Rubin 专为运行智能体而生,是一套完整的分解式分布式智能体处理系统,包含 Vera Rubin NVL72 系统、液冷 Vera CPU 机架、Vera BlueField-4 STX 存储和安全系统、Groq 3 LPX 低延迟推理托架和 Spectrum-X Ethernet Photonics 网络。

该平台由中国台湾超过150 家供应链生态合作伙伴参与,遍布数百个工厂。所有组件均通过极致协同设计(extreme co-design)打造。

英伟达为 Vera Rubin 打造的供应链,规模是 Grace Blackwell 的2 倍

以前组装一个 Grace Blackwell 机架需要 2 小时,现在只需5 分钟。产能更高,出货速度也大幅提升。

单个液冷 Vera CPU 机架容纳 256 颗 CPU,负责模型编排、内存调度与工具调用。

在富士康与广达,Groq LPX逐步成形。256 颗 Groq LPU 分布于 16 个托盘,片上静态随机存储器(SRAM)带宽高达 40PB/s,实现超低时延。

Spectrum-X Ethernet Photonics 是全球首款采用共封装光器件的 200Gb/s SerDes 以太网交换机,现已投入生产。

Vera BlueField-4 STX由 BlueField-4 加速,在芯片层面处理安全问题:DOCA Argus可将威胁检测时间从分钟缩短至毫秒DOCA Vault可在机架规模上保护 AI 数据。

09.

DSX:帮企业构建和管理 AI 工厂,

相同功耗下多塞 40% 的 GPU

英伟达曾经在计算机内部设计一颗芯片,然后在计算机内部仿真一个系统,如今终于可以在数字框架、数字仿真器、数字世界中构建这些庞大的系统,在破土动工、投入真金白银之前验证一切。

黄仁勋解释说,RTX 对应 GPU,DGX 对应系统,而 DSX 对应基础设施。

世界正在竞相建设 AI 工厂芯片、机架、网络、电力、冷却、电网每一层都必须从头到尾协同设计,因为 "计算即收入"。

NVIDIA DSX 是以最高效率和盈利能力设计、建设与运营 AI 工厂的参考设计,致力于实现最低 Token 成本,并守护能源电网安全。

今日,英伟达推出适用于 DSX 平台的全新 AI 工厂操作系统DSX OSDSX MaxLPS

DSX OS是一款模块化、开源、可扩展的基础设施软件,专为 AI 工厂运营商设计,负责配置、运营、监控和修复基础设施,将已安装的系统转化为可信赖的多租户、高弹性、AI 就绪的算力容量。

DSX OS 开源组件的生态合作伙伴可接入自有软件,并通过 ISV(独立软件供应商)生态加以扩展。

DSX MaxLPS是一套专门设计的技术组合,能与 Vera Rubin 硬件的动态功耗特性协同配合,统筹优化算力吞吐,帮助数据中心运营商在相同功耗、电力预算下可多提供40%的 GPU,每年可新增数十亿美元的营收。

热液冷却技术在 45 ℃下运行,耗水更少、能耗更低,将更多电力导向创收算力;动态电力调配技术将电力从机架到机架灵活调度,回收闲置功耗,将其输送至有工作负载的地方;机架内削峰平滑技术抑制电流尖峰和功率浪涌,稳定整个工厂的供电;智能体团队与 DSX MaxLPS 协作,持续协调冷却与电力,以满足工作负载需求。

10.

结语:一切为了帮客户实现最高利润

2026 年正成为 AI 发展史上极为重要的一年。智能体的拐点正在推动生产力大幅提升,创造巨大的商业机遇。

黄仁勋总结了英伟达构建 AI 基础设施的优势:

1、首个 Token 时延、首次推理启动时延、训练启动时延都更短。

2、每瓦吞吐量、每瓦 Token 数是世界顶级。仅仅因为芯片更便宜就选择错误的架构,这不划算。每瓦 Token 数才是关键,买得越多,赚得越多。

3、可靠性。英伟达已经在超大规模下运营很久,这些经验非常宝贵。

4、系统使用寿命。每隔几个月,软件行业就会涌现出新技术。英伟达的系统遍布全球,软件开发者从英伟达 CUDA 起步,因此生态系统和资产的有效使用寿命自然会更长。如果资产寿命长,则总拥有成本(TCO)低。

正如黄仁勋强调的,英伟达已经不仅仅是一家 GPU 公司和系统公司,而是一家基础设施公司,一切都是为了帮客户实现最大营收、最高利润,并尽快实现目标。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 黄仁勋 ai 芯片 英特尔
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论