NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

快科技 3 月 23 日消息，如果说前几年的 AI 重点是训练，那么现在的重点是推理，NVIDIA 上周的 GTC 大会上已经发布了全新的 LPU 芯片，就是要重塑 AI 推理。

在 GTC 大会期间，NVIDIA 首席科学家 Bill Dally 跟谷歌首席科学家 Jeff Dean 两位大神有了一番精彩的深度访谈，其中 Dally 就谈到了 NVIDIA 在做的一些研究进展。

AI 推理对延迟的要求很高，Dally 指出目前的瓶颈已经不是算力本身，瓶颈在通信开销上，NVIDIA 正在研究片上通信的静态调度，将会彻底取消路由开销、排队和仲裁，通信速度接近光速本身。

目前的技术方案中，芯片从一角到另一角的延迟有几百纳秒之多，NVIDIA 的技术方案可以做到 30 纳秒。

片外通信中，之前的方案是一步步提高带宽速率，现在做到了 400Gbps 甚至 800Gbps，但这样的带宽也带来了复杂的信号处理及纠错机制，但速度如果从 400Gbps 降低到 200Gbps，复杂问题反而会消失，只做序列化延迟的话，几个时钟周期就能完成。

Dally 表示他有信心未来 AI 推理可以做到单用户每秒 10000 到 20000Token 的推理速度——作为对比，大家要知道目前很多人用在大模型 AI 推理速度，普遍在 100Token 每秒以内，甚至每秒 60Token 以上的速度就算高速了。

Dally 表示做到这样的速度前提是用对了架构，他还以 NVFP4 精度做了例子对比，用这种精度做一次乘加运算需要消耗 10 飞焦的能量，但 HBM4 从外部读取数据大约消耗 15 皮焦能量，差距是 1000 倍以上。

改用 SRAM 缓存的话，读取数据的能耗也会变成 10 飞焦了，跟计算过程的消耗一个级别。

不过 SRAM 也不是没代价的，芯片成本比 HBM 还会高的，GTC 大会上 NVIDIA 发布的 LPU 芯片 LPU30 也只能集成 500MB SRAM 缓存，跟 GPU 集成的 288GB HBM4 不是一个量级的。

宙世代