【CNMO 科技消息】5 月 11 日,据韩媒报道,内存半导体行业在 HBM4 量产前夕,已正式启动下一代技术 HBM-PNM 的研究。该技术旨在突破以 GPU 为中心的架构限制,通过在内存中直接进行计算,推动以计算内存为核心的架构转型。

存储芯片
近日,三星电子、NVIDIA、加州大学圣地亚哥分校、哥伦比亚大学以及延世大学的研究团队发表论文,提出了多芯片粒内存中心架构技术,展示了 HBM-PNM 技术的实现路径。PNM 技术通过在 HBM 堆叠的逻辑层中配置专用计算单元,实现内存附近的数据直接处理。相较于在内存单元内嵌入电路的 PIM 技术,PNM 能够在保持内存容量的同时,支持更为复杂且强大的计算任务。
目前,大型语言模型在处理长文脉解码时,GPU 的计算能力利用率通常不足 5%,大部分资源用于内存带宽支持,造成了资源浪费与高能耗。研究显示,NVIDIA 的 Rubin GPU 在处理长文脉任务时,其计算芯片的资源占用率极低。
随着 HBM4 引入 5 纳米及以下先进制程的逻辑层,PNM 的实现门槛显著降低。研究团队提出的架构方案剔除了传统 GPU 的计算芯片,通过将 16 个 HBM-PNM 单元连接,使封装内内存带宽提升至每秒 44TB,达到现有水平的 2 倍。

图源网络
测试结果显示,该架构在处理 100 万级长文脉推理任务时,其注意力机制的延迟较 NVIDIA H100 降低了 15.5 倍,能耗降低了 6.9 倍。与 Rubin GPU 相比,该架构在速度与能效方面也表现出显著优势。研究团队认为,此项研究验证了内存中心架构作为新型计算系统的潜力,未来有望在异构平台中发挥核心作用。


登录后才可以发布评论哦
打开小程序可以发布评论哦