废弃硬件变身AI神器：768GB英特尔傲腾内存成功运行万亿参数大模型！

快科技 5 月 24 日消息，据报道，Reddit 用户 APFrisco 近日通过一套极客方案，利用 6 根二手英特尔傲腾 DCPMM 持久内存模块，在单 GPU 工作站上成功运行了拥有 1 万亿参数的 Kimi K2.5 大模型，推理速度约为每秒 4 个 Token。

该系统基于英特尔至强金牌 6246 处理器与泰安 S5630GMRE-CGN 主板构建。内存系统总容量为 768GB，由 6 根 32GB 三星 DDR4-2666 ECC 内存条与 6 根 128GB 英特尔傲腾 DCPMM 持久内存模块组成。

图形算力由两张华硕 GeForce RTX 3060 OC 12GB 显卡承担，存储设备采用西部数据 WD SN850X 2TB 固态硬盘，电源为华擎 Steel Legend SL-850G 850W 全模组电源。

软件运行层面，该方案采用了基于 llama.cpp 的 GPU 与 CPU 混合推理方法。通过 llama.cpp 的 override-tensor 标志，系统将模型路由组件强制分流至总计 24GB 显存的 GPU 中处理，其余参数则由傲腾内存承担存储与读取任务，有效规避了单卡显存不足的瓶颈。

英特尔傲腾系列产品虽已停产，但其介于 DRAM 与固态硬盘之间的读写特性，使其成为替代昂贵内存方案的特殊选择。

业内分析认为，随着 CXL 计算快速连接标准的成熟，未来市场有望出现更具性价比的字节寻址内存解决方案，以支撑大型语言模型对内存容量的迫切需求。

宙世代