星途科讯 2小时前
告别HBM:新型M3D芯片Sophon以极低能耗重塑AI训练推理格局
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一款名为 PFG-1 "Sophon" 的新型单芯片正在挑战传统 AI 加速器的架构边界。这款集成训练与推理能力的芯片,基于 750 mm ²、32 层二维过渡金属硫族化合物 ( TMD ) 单片三维 ( M3D ) 平台构建,其核心突破在于彻底消除了对片外高带宽内存 ( HBM ) 的依赖。

据媒体报道,Sophon 通过将权重、梯度和优化器状态完全驻留在片上 2T0C 2D-TMD 增益单元 DRAM 中,实现了 330 GB 的超大片上容量。这种纯数字存内计算 ( CIM ) 架构不仅支持 BF16 格式的全流程训练,还能以极高的能效提供小批量解码服务。在 7.5 cm ² 的占地面积内,其算力可达 4,200 TFLOPS ( FP8 ) 和 2,100 TFLOPS ( BF16 ) 。

架构革新:2T0C DRAM 与 M3D 堆叠

Sophon 的物理堆栈由 28 nm Si CMOS 基础层和 32 层交错排列的 2D-TMD 逻辑与存储双联体组成。每个存储层嵌入于后端工艺 ( BEOL ) Metal-3 层,采用独特的 2T0C(双晶体管零电容)增益单元 DRAM。

得益于 TMD 晶体管极低的关态电流(约 1 fA/ µ m),该单元无需传统 DRAM 的电容器即可保持数据数秒,单元面积缩小至 8 F ²。这种设计使得芯片在 25 ° C 下仅需每 1.0 秒刷新一次,整个 330 GB 芯片的刷新功耗仅约 0.08 W。更重要的是,由于存储节点在每个周期都可写,Sophon 支持无限耐久性的原位梯度累积,实现了同一硬件在训练和推理模式间的无缝切换。

芯片内部包含 131,072 个 CIM 模块,每个模块配对一个二进制灵敏放大器与一个 8 级加法树。权重通过垂直单片层间通孔 ( MIV ) 直接从存储层传输至逻辑层,层内权重带宽高达 4.2 PB/s,且完全不占用片上网络 ( NoC ) 资源。NoC 仅用于传输激活值和部分和,聚合带宽达 18,560 TB/s。

性能对标:碾压 HBM4 带宽瓶颈

在小批量推理场景下,传统 GPU 往往受限于 HBM 带宽。Sophon 的架构优势在此刻显现:其提供的权重带宽是 NVIDIA Rubin ( R200 ) 的约 191 倍,是 AMD Instinct MI455X 的约 214 倍。

数据显示,在处理 800 亿参数 ( 80B ) 模型时,Sophon 的表现远超预期:

推理性能:原生 BF16 格式下解码速度达 7,219 tokens/s,FP8 模式下翻倍至 14,438 tokens/s。若结合 INT4 量化与投机解码,有效吞吐量可飙升至 72,188 tokens/s。

能效优势:每瓦令牌数高达 38.7 tokens/s/W,约为 NVIDIA Rubin 或 AMD MI455X 的 174 倍。后者受限于 HBM4 带宽,小批量下能效仅约 0.22 tokens/s/W。

训练性能:80B 模型训练吞吐量比 Rubin/MI455X 高出 2.7 – 3.1 倍,单流 FP8 解码吞吐量高出 48 – 53 倍。

尽管在峰值密集 FLOPS 上,Sophon 的 BF16 算力仅为竞品的 0.21 – 0.24 倍,但在决定实际体验的小批量场景中,权重内存带宽而非峰值算力才是决定性因素。

经济效益:BOM 成本降低近一个数量级

消除 HBM 带来了显著的成本优势。摩根士丹利估算,单个 NVIDIA VR200 ( Rubin ) NVL72 机架成本约 780 万美元,其中 HBM 内存成本高达 200 万美元。相比之下,Sophon 的硬件 BOM 成本仅为 8,358 美元,比 Rubin 和 MI455X 低约 9.9 倍至 11.6 倍。

在热管理方面,Sophon 采用液冷设计。在标准液冷冷板下,即使在全负载训练(平均 564 W)或峰值突发(1,362 W)情况下,结温均控制在 105 ° C 的安全阈值内。堆栈内部的垂直温差极小(≤ 1.7 K),主要热阻来自封装而非 M3D 堆栈本身。

Sophon 的出现表明,通过材料创新与架构重构,AI 芯片可以摆脱对昂贵 HBM 的依赖,在大幅降低成本的同时,解决大模型推理中的内存墙问题,为数据中心提供一种更具弹性且经济高效的训练即服务 ( Training-as-a-Service ) 解决方案。

【星途科讯 图文丨伊贝 首发于 ZAKER 科技,转载请注明出处】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai amd 芯片 cmos 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论