快科技 3 月 12 日消息,近日,B 站 UP 主 " 虽然但是张黑黑 " 分享了一段视频,展示了满血版苹果 M3 Ultra 运行 6710 亿参数的 DeepSeek R1 模型的测试结果,其速度甚至超过了 8 张 A100 显卡,而成本却低得多。
运行 6710 亿参数的 DeepSeek R1 模型通常需要一台搭载 6-8 张 A100 的专业级服务器,总价轻松超过百万元这对于普通用户来说几乎是不可能负担的。
然而满血版 M3 Ultra 仅需一台 Mac Studio 即可实现类似性能,性价比极高。
测试结果显示,在运行 DeepSeek R1 模型时,8 张 A100 显卡的性能为 16.41 Tokens/s,而满血版 M3 Ultra 在 GGUF 格式下达到 15.78 Tokens/s,
切换到能发挥统一内存优势的 MLX 格式后,速度提升至 19.17 Tokens/s,超越 8 张 A100 显卡,此外 M3 Ultra 在运行 DeepSeek V3 6710 亿参数模型时,速度也达到了 19.66 Tokens/s。
不过这并不意味着 M3 Ultra 在所有场景下都能超越 A100,单用户进行单一模型推理时,主要依赖内存带宽和容量,无法完全发挥 A100 的潜力,在多用户推理和大模型训练场景下,M3 Ultra 则完全无法与 A100 相提并论。
此外,M3 Ultra 在大语言模型推理速度测试中表现优异,无论是 Llama 3.1 70B、Gemma2 27B 还是 Qwen 2.5 14B 模型,其速度都明显优于其他 M 系列芯片,与 M2 Ultra 相比,速度分别提升了 13%、34% 和 18%。
此次测试的满血版 M3 Ultra 配备了 512GB 统一内存,总价为 74249 人民币,对于大多数用户来说,如果不需要运行如此大规模的模型,可以适当降低统一内存容量,从而节省成本。
登录后才可以发布评论哦
打开小程序可以发布评论哦