2024 年 1 月 25 日,中国人工智能领域迎来一场地震——本土大模型技术厂商深度求索(DeepSeek)正式开源其推理大模型 DeepSeek-R1。其性能表现与 OpenAI 同期旗舰模型 o1 不相上下,但训练成本仅为后者的 1/20,API 调用价格更是低至 1/28,综合使用成本骤降 97%。这种 " 性能不妥协、成本砍到脚踝 " 的策略,迅速让 DeepSeek-R1 成为开发者社区、乃至整个全球的热议话题。
然而,随着官方 APP 日活用户两周内破百万,API 调用量激增 300%,DeepSeek 的服务器不堪重负,频繁触发 " 服务器繁忙 " 提示。普通用户抱怨访问卡顿,企业客户则因关键业务中断风险开始另寻出路。金融、医疗等领域的企业率先转向第三方云服务。而银行、政务等对数据隐私极度敏感的企业则选择进行本地化部署。
不过,除了上述这些财大气粗的国企央企以外,很多中小型企业、科研机构、高校和 AI 爱好者在预算有限的情况下,也想本地部署 DeepSeek 怎么办呢?幸好,DeepSeek-R1 推出了 INT4 量化模型,将原有的模型压缩为 1/8 左右,大大缩减了对硬件资源的需求。可即便如此,满血版的 DeepSeek-R1 INT4 模型依然有 671B 参数(6710 亿参数),运行需要至少 6 张 NVIDIA A100 80GB 或 H100 80GB 的显卡,整机成本在 150 万以上。
为了满足更多 AI 应用场景的需求,DeepSeek 又推出了 R1 蒸馏版模型。所谓蒸馏模型(Knowledge Distillation),就是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。其目标是在尽可能保持模型性能的同时,降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。
满血版的 DeepSeek-R1 模型有 6710 亿参数,而蒸馏后的 R1 模型参数从 700 亿(70B)到 15 亿(1.5B)不等,参数规模越大,DeepSeek 的能力就越强。打个比喻,如果 6710 亿的 R1 是大学教授的话,那往下分别是研究生(70B)、大学生(32B)、高中生(14B)、初中生(8B)和小学生(1.5B)。如果论干活能力,14B 以下的模型实用价值不高,玩玩尝个鲜可以,它的智慧可能还不如你手机里面的小爱同学。所以,要想 DeepSeek 真正成为你的 AI 工作助手,怎么也得上 32B,最好是 70B 模型。
那运行这些 DeepSeek-R1 蒸馏模型究竟需要什么样的配置呢?我们特别挑选了 8 款消费级显卡进行测试,得到的答案有在预料之中,也有在预料之外。
我们的 PC 配置如下:
CPU:英特尔 U9 285K
主板:微星 MEG Z890 ACE 战神
内存:金士顿 FURY 叛逆者 24GB*2 8400Mhz
硬盘:希捷酷玩 540 1TB PCIe 5.0
显卡:NVIDIA GeForce RTX 5090 FE 32G
NVIDIA GeForce RTX 5090 D 32G
NVIDIA GeForce RTX 5080 16G
NVIDIA GeForce RTX 4090 D 24G
NVIDIA GeForce RTX 4070 12G
NVIDIA GeForce RTX 4060 8G
NVIDIA GeForce RTX 3070 8G
NVIDIA GeForce RTX 2080 Ti 11G
电源:鑫谷昆仑九重 KE-1300P
散热:酷冷至尊 ION 冰界 360 水冷
部署工具:Ollama
GUI:AnythingLLM
系统:Windows11 专业版 24H2
显卡驱动版本:Game Ready 572.43
首先是 DeepSeek-R1 7B 模型推理测试,8 张显卡都能正常运行。表现最差的 4060 8G 也有 45 Token/s。Token 是衡量 AI 运行速度的一个指标,可以简单理解成 AI 每秒生成的文字数量,Token 值越高说明推理速度越快。从我们使用的主观感受来说,20 Token/s 以上的速度是比较不错的表现,完全可以当作生产力工具来使用。
接着我们进行了 DeepSeek-R1 14B 模型推理测试,这下 8G 显存的显卡无论核心速度如何,成绩都大幅下降,运行速度只有可怜的 6 Token/s,也就是每秒蹦 6 个字左右。可以跑,但体验相对差一些。
那为何 8G 显存的显卡性能下滑 10 倍呢?结论就是爆显存了。通过 Windows 任务管理器可以看到,14B 模型将显存占满以后,有一部分数据跑到了共享显存里(也就是内存),而这部分数据其实是在 CPU 上跑,效率比 GPU 上慢太多,因此拖累了整体的效率。
继续我们测试,这次是 DeepSeek-R1 32B 模型测试。这次 16G 显存以下的显卡全部报错,只有 RTX 5080 可以勉强一战,至于速度嘛,那叫一个惨不忍睹。原因还是和前面一样,爆显存了。32B 模型对显存的需求确实在 20G 左右。
最后是 DeepSeek-R1 70B 模型测试。这次 RTX 5080 也歇菜了,只有 RTX 5090、RTX 5090 D 和 RTX 4090 D 勉强能跑,不过速度嘛,也只有可怜的 5 Token/s。可以观察到,70B 模型有 30GB 左右数据运行在显存(GPU)上,另外 12GB 左右数据运行在内存(CPU)上,加起来刚好是 42GB 多。
值得一提的是,不论跑那个模型,RTX 5090 和 RTX 5090 D 的表现都差不多。我们咨询了英伟达技术人员,得到的答复是运行 DeepSeek 这样的现代模型,其运行效率更依赖显存带宽,而非纯算力。说简单点就是 GPU 核心没有跑满,所以看不出差距。
从以上测试我们可以得出一个结论,如果你想本地运行 DeepSeek-R1 蒸馏模型,相比显卡的算力,显存的重要性更高一些。按照重要性排级的话:显存容量>显存带宽 >核心算力。
不过,即便 RTX 5090 也不能很好地运行 70B 模型(5 Token/s 的速度还是太慢了),这一点有点让我们失望。那有没有更好的解决办法呢?有,加卡。我们再增加一张 5090 D 显卡,总显存容量来到 64GB,这下运行速度直接飙到了 23 Token/s,翻了 4 倍。
之前我们担心 RTX 5090 D 不支持 NV-Link,没法多卡工作,没想到 DeepSeek 不用 NV-Link,两卡之间通过 PCIE 总线连接,也能多卡协作。不过这也仅限于 AI 推理,如果是 AI 训练的话,结果可能就另当别论了。
考虑到两张 5090 D 的价格依然很贵,以目前的价格加起来要 5 万元人民币,有没有更具性价比的搭配呢?于是我们又测试了 5090 D+5080 的双卡组合(32GB+16GB=48GB 显存),结果输出速度也非常快,接近 20 Token/s。
到这里,我们基本已经有了一个清晰的认知。DeepSeek R1 蒸馏模型确实能在保持较高性能的同时,显著降低对硬件的要求,部署成本也大大降低,非常适合个人开发者、小型企业和中等复杂度开发测试。
显卡选择方面,如果是选择 7B 模型,目前主流的消费级显卡(显存 8GB 以上的)基本都能胜任。如果你要求高一些,需要 14B 模型,最好选择 12G 显存以上的显卡。如果你想运行 32B 模型,最好选择 24G 显存以上的显卡。如果你还不满足,想要上 70B 模型,那么双 RTX 5090 D 配置或者 5090 D+5080 会是更好的选择。
当然,如果你是大型企业和科研机构,需要进行超大规模的 AI 训练和推理任务,并且预算充足,那么 DeepSeek R1 满血版(671B)模型可能更适合你。DeepSeek R1 满血版(671B)模型在 FP16 精度下,显存需求高达 1.34TB,4-bit 量化显存也需要约 350GB,至少需要 16 张 NVIDIA H100 80GB + NVLink/InfiniBand 互联才能满足本地化部署要求。
登录后才可以发布评论哦
打开小程序可以发布评论哦