快科技 5 月 24 日消息,据报道,Reddit 用户 APFrisco 近日通过一套极客方案,利用 6 根二手英特尔傲腾 DCPMM 持久内存模块,在单 GPU 工作站上成功运行了拥有 1 万亿参数的 Kimi K2.5 大模型,推理速度约为每秒 4 个 Token。
该系统基于英特尔至强金牌 6246 处理器与泰安 S5630GMRE-CGN 主板构建。内存系统总容量为 768GB,由 6 根 32GB 三星 DDR4-2666 ECC 内存条与 6 根 128GB 英特尔傲腾 DCPMM 持久内存模块组成。
图形算力由两张华硕 GeForce RTX 3060 OC 12GB 显卡承担,存储设备采用西部数据 WD SN850X 2TB 固态硬盘,电源为华擎 Steel Legend SL-850G 850W 全模组电源。
软件运行层面,该方案采用了基于 llama.cpp 的 GPU 与 CPU 混合推理方法。通过 llama.cpp 的 override-tensor 标志,系统将模型路由组件强制分流至总计 24GB 显存的 GPU 中处理,其余参数则由傲腾内存承担存储与读取任务,有效规避了单卡显存不足的瓶颈。
英特尔傲腾系列产品虽已停产,但其介于 DRAM 与固态硬盘之间的读写特性,使其成为替代昂贵内存方案的特殊选择。
业内分析认为,随着 CXL 计算快速连接标准的成熟,未来市场有望出现更具性价比的字节寻址内存解决方案,以支撑大型语言模型对内存容量的迫切需求。



登录后才可以发布评论哦
打开小程序可以发布评论哦