量子位 前天
技能英伟达桌面超算,加入苹果Mac Studio快爆了:推理速度飙升至277%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

英伟达桌面超算,邪修玩法来了!

两台 DGX Spark 串联一台苹果 Mac Studio,就能让大模型推理速度提升至 2.77 倍。

这是 GitHub 三万星大模型框架作者 EXO Lab 团队发布的最新成果。

这个 EXO Labs,专门研究把大模型放到各种家用设备上运行。

之前,还有,都是这家工作室的手笔。

这次他们又把 DGX Spark 和 M3 Ultra 结合,利用它们各自的优势,在大模型部署上整出了新活。

那么,这套邪修组合具体是如何实现的呢?

PD 分离 + 流式传输,让设备各司其职

要想理解如何结合两种设备的优势,需要先了解大模型推理的工作方式。

大模型的推理,主要分为 Prefill 和 Decode 两个阶段。

Prefill 处理提示并为每个 Transformer 层构建一个 KV 缓存,Decode 阶段则是根据构建好的整个 KV 缓存生成 token。

两个阶段任务不同,对硬件性能的侧重也不一样,整体上来说 Prefill 更吃算力,而 Decode 吃内存带宽。

具体来说,Prefill 阶段计算量随提示长度呈二次增长,利用 Flash Attention 等技术,可以优化为线性增长,但计算量依然庞大,因此主要受制于计算能力;

到了 Decode 阶段,KV 缓存已经计算完毕,不需要再重新运算,矩阵 - 矩阵乘法变成了运算量更低的向量 - 矩阵乘法比,对算力的需求降低,主要受制于内存带宽。

再看 EXO Labs 手里的两种设备,DGX Spark 算力强但是带宽不行,Mac Studio 搭载的 M3 Ultra 则刚好相反,内存带宽高但算力不如 DGX Spark。

具体来说,DGX Spark 有 100TFLOPS 的 fp16 算力,M3 Ultra 只有 26TFLOPS;而 M3 Ultra 有 256GB@819GB/s 的内存,DGX Spark 却只有 128GB@273GB/s。

所以,EXO Labs 的思路就是把 Prefill 和 Decode 阶段分开,分别分配给擅长的设备,DGX Spark 负责 Prefill,Mac 则负责 Decode,这也就是 AI Infra 业界常说的 PD 分离。

最简单的 PD 方式就是先把 Prefill 做完,然后再传输给 Decode 设备进行 Decode。

但这就增加了两个阶段之间的通信成本,如果传输时间过长,效果可能适得其反。

所以,进行 PD 分离运算需要解决的关键问题是,就是 KV 缓存传输。

这里 EXO Labs 运用了流式传输的思想。

我们在网上看电影、刷 B 站时,并不需要把整个视频文件加载完才能开始播放,而是将一小段加载到内存之后就可以观看,后面的内容边看边加载,这就是流式传输。

音视频可以边传边看,KV 缓存也可以边算边传,因为大模型当中包含了多个 Transformer 层,使得 KV 缓存不一定非要以一个 Blob 的形式到达 Decode 设备,而是可以逐层到达。

第 1 层的 Prefill 完成后,其 KV 缓存就开始传输到给 M3 Ultra 去 Decode,同时第 2 层的 Prefill 则在 DGX Spark 上开始,每一层的通信都与后续层的计算重叠。

实际上, EXO 还会在处理层的过程中传输该层的 KV 向量,因为 KV 向量的计算是在最繁重的计算步骤之前进行的。

利用 EXO 框架,PD 分离、逐层 KV 流以及硬件感知都可以自动完成。

启动 EXO 时,它会自动发现连接的所有设备,并针对计算吞吐量、内存带宽、内存容量和网络特性对每个设备进行分析。

给定一个模型和拓扑结构, EXO 就会规划哪个设备应该处理 Prefill,哪个设备应该处理 Decode,是否需要跨层流水线,何时传输 KV 对,以及如何在网络条件发生变化时进行调整。

最终,在 DGX Spark 和 Mac Studio 的组合下,Llama-3.1 8B 在 Prefill 阶段的速度提升至了 Mac 的 3.79 倍,Decode 速度提升至 DGX Spark 的 3.37 倍,整体提升至 Mac Studio 的 2.77 倍。

Three More Things

EXO 这种 PD 分离的做法,英伟达自己也在进行尝试,其即将推出的 Rubin CPX 平台将使用计算密集型 Rubin CPX 处理器进行 Prefill,配备巨大 HBM3e 内存带宽的标准 Rubin 芯片则负责 Decode。

再说 EXO 团队这次用的 DGX Spark,最近正在进行配送,马斯克、奥特曼还有 LeCun 都收到了,其中还有老黄亲自送货上门。

另外,AI 性能也有一定提升。

在 M5 芯片的 MacBook Pro 上,首个 Token 生成速度(主要受 Prefill 影响)提升到了 M1 的 6.4 倍、M4 的 3.55 倍。

另外,也有更快的图像 / 视频生成、更快的微调,以及更高的吞吐量。

不过宣传上说的是性能的又一次跃升,但仔细一看,M5 甚至不如 M4 Max,M4 Max 又甚至不如 M3 Ultra ……

而 EXO 的这波操作下,M3 Ultra 的含金量似乎更高了。

参考链接:

[ 1 ] https://blog.exolabs.net/nvidia-dgx-spark/

[ 2 ] https://www.tomshardware.com/software/two-nvidia-dgx-spark-systems-combined-with-m3-ultra-mac-studio-to-create-blistering-llm-system-exo-labs-demonstrates-disaggregated-ai-inference-and-achieves-a-2-8-benchmark-boost

[ 3 ] https://x.com/awnihannun/status/1978465715121250801

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

mac spark 英伟达 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论