智东西 03-24
仅靠CPU也能跑DeepSeek、QwQ!浪潮信息发布全新方案,更懂中小企业的AI服务器来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 陈骏达

编辑 | 漠影

2025 年,以 DeepSeek、QwQ 等为代表的推理大模型火爆全球,并在复杂任务上展现出强大实力。这也让不少企业考虑,如何能利用此轮推理大模型的技术进步,来优化自身的决策、提升企业运行效率并促进创新。

然而,传统的 CPU 服务器在处理当前的 AI 推理需求时显得力不从心,而 GPU 推理服务器动辄上百万的高昂成本又将许多中小企业挡在门外。

在这样的背景下,市场亟需一种既能控制成本又能保证性能的服务器解决方案,以满足企业对便捷、高性价比 AI 推理服务的需求。

随着 AI 技术的快速发展,CPU 服务器也在不断进化。近日,浪潮信息发布的元脑 CPU 推理服务器,能高效运行 DeepSeek-R1 32B 和 QwQ-32B 等适合企业日常需求的推理模型,还能与企业原有的业务兼容,具备性价比高、运维简单等优势。

▲元脑 CPU 推理服务器,基于 QwQ-32B 模型生成猜数字游戏

在 GPU 服务器之外,新一代 CPU 推理服务器为企业提供了快速、易获取且低成本的算力供给,正成为更多企业的理想选择。

一、跑大模型 GPU 并非唯一解,CPU 推理服务器成中小企业理想新选择

当谈及部署大模型时,不少企业的第一反应都是 " 买卡 "。的确,在大模型训练、推理的场景中,GPU 加速卡凭借强大的浮点运算能力和大规模并行处理架构,在高吞吐量的 AI 推理任务上展现出明显优势。

但 GPU 并不是唯一解。

CPU 更擅长处理复杂的逻辑运算和通用计算任务,虽然在高并行计算任务上不如 GPU,但在处理多样化工作负载(如数据库查询、业务逻辑处理)时性能表现优秀。而且,随着技术的不断迭代,具备 AI 计算能力的 CPU 服务器也开始在 AI 推理场景中展现独到优势。

在大模型推理过程中,不少模型采用 KV Cache(键值缓存),用于存储解码过程中生成的中间结果,以减少重复计算,提升推理效率。随着模型规模的增大,KV Cache 的存储需求也随之增加。

与 GPU 服务器相比,CPU 推理服务器以更低的硬件投入,支持更大容量的系统内存,能够轻松存储更大规模的 KV Cache,避免频繁的数据交换,从而提升推理效率。CPU 推理服务器还可通过多通道内存系统,进一步支持大规模 KV Cache 的高效访问。

当 CPU 推理服务器与高效的中等尺寸推理模型结合后,能够形成显著的协同效应,在保证性能的同时进一步压缩成本。

以业界多款 32B 推理模型为例,这些模型通过采用更高效的注意力机制、模型量化与压缩技术以及 KV Cache 优化,显著降低了计算和存储需求。例如,DeepSeek-R1 32B 在知识问答、智能写作和内容生成等方面表现优异,而 QwQ-32B 则在数学推理、编程任务和长文本处理等领域展现出强大的性能。

此外,DeepSeek-R1 32B 和 QwQ-32B 的训练数据中包含了海量的高质量中文语料库,使其更加适合国内企业的应用需求。

在企业知识库问答、文档写作、会议纪要整理等场景中,32B 参数级别的模型往往是最佳选择,既能提供强大的能力支持,又能保持合理的硬件投入,仅基于 CPU 推理服务器,企业用户即可实现本地化部署,满足对性能、成本和易用性的多重需求。

从成本角度来看,相比 GPU 服务器高昂的硬件成本,更严格的电源、散热和机架空间,CPU 服务器对环境的要求较为宽松,对于轻量使用和预算有限的企业而言,更具性价比。

二、软硬件协同优化成效显著,解码速度翻番、效率提升至 4 倍

浪潮信息本次推出的元脑 CPU 推理服务器,正是这样一款支持中等尺寸模型推理,能为中小企业提供高效 AI 推理服务的 CPU 推理服务器。

在实际测试中,单台元脑 CPU 推理服务器在使用 DeepSeek-R1 32B 进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过 20tokens/s,20 个并发用户下,总 token 数达到 255.2tokens/s。

▲基于 DeepSeek-R1 32B 并发性能测试数据

在使用 QwQ-32B 进行模型推理时,20 个并发用户数下总 token 数达到 224.3tokens/s,可以提供流畅稳定的用户体验。

▲基于 QwQ-32B 并发性能测试数据

元脑 CPU 推理服务器的性能,得益于浪潮信息的软硬件协同优化。

算力方面,元脑 CPU 推理服务器采用 4 颗 32 核心的英特尔至强处理器 6448H,具有 AMX(高级矩阵扩展)AI 加速功能,支持张量并行计算。与传统双路服务器方案的有限内存不同,元脑 CPU 推理服务器的多通道内存系统设计可支持 32 组 DDR5 内存。

在这些硬件的加持下,元脑 CPU 推理服务器单机具备 BF16 精度 AI 推理能力、最大 16T 内存容量和 1.2TB/s 内存带宽,可以更好满足模型权重、KV Cache 等计算和存储需求,快速读取和存储数据,大幅提升大模型推理性能。

▲元脑 CPU 推理服务器 NF8260G7 配置

在算法方面,元脑 CPU 推理服务器对业界主流的企业级大模型推理服务框架 vLLM 进行深度定制优化,通过张量并行和内存绑定技术,充分释放服务器 CPU 算力和内存带宽潜能,实现多处理器并行计算,效率最高提升至 4 倍。

面对内存带宽的挑战,元脑 CPU 推理服务器为进一步提升解码性能,采用了 AWQ(Activation-aware Weight Quantization 激活感知权重量化)技术。

AWQ 技术能确定模型中对性能影响最大的少部分重要权重,并通过保护这些权重来减少量化带来的误差。AWQ 还避免了混合精度计算带来的硬件效率损失。

采用了 AWQ 的元脑 CPU 推理服务器在解码任务中的性能提升了一倍,让大模型在保持高性能的同时,跑得更快、更省资源。

元脑 CPU 推理服务器还通过浪潮信息打造的 AI Station 平台,支持用户灵活选择适配的大模型算法,包括 DeepSeek 全系模型、QwQ 和 Yuan 等不同参数量的模型。

三、更懂中小企业需求,通用性、成本效益突出

在智东西与浪潮信息副总经理赵帅的沟通中,我们了解到,元脑 CPU 推理服务器仅推出 1 周,便吸引了多家来自大模型、金融、教育等行业的客户咨询和测试,这款 CPU 推理服务器精准地填补了中小企业市场中的一个关键空白。

目前,许多企业对将私有数据上云仍持保留态度,更倾向于在本地完成 AI 推理任务。然而,如果企业选择使用 GPU 服务器来部署高性能 AI 模型,往往需要承担高昂的初始投资成本。对于中小企业而言,这种投资的性价比并不高——它们通常不需要极致的 AI 性能或超高的并发处理能力,而是更关注易于部署、易于管理、易于使用的入门级 AI 推理服务。

在这种情况下,生态更为成熟、开发工具更为健全的 CPU 推理服务器展现出了显著的优势。CPU 推理服务器不仅能够更好地融入企业现有的 IT 基础设施,还因其通用性而具备更高的灵活性。

与专用 AI 硬件(如 GPU 服务器)不同,CPU 推理服务器在 AI 推理需求空闲期,还可以兼顾企业的其他通用计算需求,如数据库管理、ERP 系统运行等,从而最大化硬件资源的利用率。

在部署便捷性方面,元脑 CPU 推理服务器功耗 2000W 左右,降低了对供电设备的要求,还使得服务器的冷却需求大幅减少,仅需家用级空调即可满足散热要求。这意味着元脑 CPU 推理服务器能够轻松适应大部分企业自建的小型机房环境,无需额外投资高成本的冷却设施或对现有机房进行大规模改造。

元脑 CPU 推理服务器还具备高可靠性的特点,平均无故障时间可达 200000 小时,能够保障关键应用和 AI 推理任务的持续稳定运行。这一特性对于企业来说尤为重要,尤其是在金融、医疗、制造等对系统稳定性要求极高的行业中,高可靠性意味着更低的业务中断风险和更高的运营效率。

谈及未来,赵帅分享,浪潮信息还将进一步提升元脑 CPU 推理服务器的能力。依托于融合架构开发的经验积累,他们已在开发内存资源池化的新技术,结合长文本等算法特征进行软件优化,更好地支持企业的使用需求。

结语:CPU 推理服务器有望推动 AI 普惠

随着 AI 技术往行业深水区发展,大模型推理需求正从大型企业逐步向中小企业渗透,从少部分企业所享有的 " 奢侈品 " 转化为大部分企业的 " 必需品 "。

在这一进程中,如元脑 CPU 推理服务器这样的高性价比 AI 推理解决方案,有望成为中小企业实现 AI 普及化和行业智能化的重要工具。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 浪潮 gpu 中小企业 吞吐量
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论