当前,传统高性能计算架构难以适配 AI for Science 等前沿领域的复杂任务,使得高性能计算 +AI 融合,又称为 " 超智融合 ",成为计算领域的重要发展趋势。在超智融合的发展路径中,其中一条是对现有高性能计算软硬平台进行创新,通过体系结构与软件协同创新及优化,高效支持 AI 负载,形成支撑未来科学发现一种全新的计算范式。
近日,清程极智通过其自研的大模型推理引擎进一步激发鲲鹏高性能计算平台极致性能,大幅优化提升 DeepSeek 推理性能,展示了超智融合在这条路径上的最新突破。
软件创新,设计高效超智融合软件系统
2023 年成立的清程极智是一家聚焦智能算力系统软件的清华系创新企业,开发了 " 八卦炉 "(Bagualu)大模型训练系统、" 赤兔 "(Chitu)大模型推理引擎及 "IntelliGen" 智能编译器三大产品。针对超智融合需求, 清程极智基于高性能计算平台进行软件系统创新,以高效支持 AI 任务。
清程极智 CEO 汤雄超分享到," 随着 AI for Science 等技术的发展,超智融合将成为未来关键的算力形态。我们认为超智融合平台将具备独特的市场竞争力。当前高性能计算中心在完成核心科学计算任务后,往往存在算力资源的闲置窗口期。若能高效整合这些碎片化算力资源,不仅能够提升基础设施的利用率,还将为计算市场带来更具性价比的创新服务模式。"
其中 " 赤兔 " 专注于应用不同体系结构芯片推理部署大模型,可快速接入 DeepSeek、Qwen、GLM 等多种模型,并支持在多种芯片间平滑切换,实现超智融合异构集群的推理部署。
汤雄超表示," 从技术实现角度,核心在于结合硬件特性构建高效的超智融合软件架构,释放高性能计算算力潜能,优化大模型训练推理的负载处理能力,并有效响应各类复杂计算需求。"
软硬协同,释放超智融合算力平台潜能
汤雄超表示," 得益于鲲鹏体系结构创新,同时高性能计算和 AI 两类计算范式在核心挑战与解决思路上存在共通性,例如芯片层面都通过算子优化、计算与访存重叠、流水线并行及多级并行等技术手段,以充分释放硬件性能,我们认为超智融合是一个非常自然的事情。" 结合鲲鹏平台,清程极智 " 赤兔 " 主要从两个技术维度发力提供加速。
一是面向鲲鹏处理器的算子性能优化技术,鲲鹏以多核 +SIMD 的方式运行,并集成了矩阵和矢量运算单元、高速存储,能同时满足高性能计算和智算需求,另外开放程度也比较高,可以做到非常精细的指令序列控制,如此便可以去做一些非常细致的计算仿存掩盖、异步流水线调度等技术优化。
二是面向鲲鹏集群的多层次大模型推理并行计算优化技术。鲲鹏采用多 NUMA 架构,集成片上内存,结合高性能 RDMA 网络互联能力,非常贴合 DeepSeek 大 EP 架构,天然亲和集群扩展。为不同优化目标匹配张量并行(TP)、流水线并行(PP)、专家并行(EP)、数据并行(DP)等不同并行方式及其组合,以多层次的运行策略实现高性能的大模型推理。
具体来看,首先,在鲲鹏平台实现高性能矩阵乘。清程极智结合鲲鹏 NUMA 特定,通过配置不同的参数运行矩阵乘,针对性优化不同计算环节的多种矩阵乘算子。实验证明在矩阵形状较好时,算子性能可达到理论峰值的 35%。
其次,在鲲鹏平台实现高性能 CoreMLA。清程极智通过量化鲲鹏平台 CoreMLA 在不同参数下的性能指标,实现了矩阵吸收的 CoreMLA 访存量与 batch_size 正相关,得出在在鲲鹏平台上,应当使用较小的张量并行配置执行 CoreMLA,才能更好地提升效率。
最后,在鲲鹏平台引入 MTP 加速技术。在上述基础优化之上,清程极智在鲲鹏平台引入 DeepSeek 推理优化也在用的 MTP(多 tokens/s 预测)技术,显著提升单个请求的输出速率,并探究在不同规模并发场景下 MTP 加速比与预测深度的相关性,不断追求最佳效果。
打破界限,引领超智融合新发展
立足以上鲲鹏多样性算力体系结构创新和清程极智超智融合 AI 推理加速技术,清程极智基于鲲鹏平台实现 DeepSeek 推理部署,推理性能可随集群规模的扩大而持续提升。具体测试中,硬件部分采用 32 个鲲鹏 CPU 集群系统 " 跑 " DeepSeek-V3/R1-671B 模型,取 batch_size = 2048 时的输出吞吐与 80 张主流 GPU 集群相当。意味着鲲鹏可支撑高性能计算 +AI 工作负载,同时兼具性能和经济性。
而谈及下一步的工作计划,汤雄超表示一方面会探索更大的集群,攻坚更复杂的并行计算模式;另一方面会追求更低成本,尝试更小规模集群的部署方案,在珍贵的高速存储外提升海量 CPU 主存的利用率,进一步降低 CPU 的集群门槛;同时要让产品更易使用,将上述优化技术集成到 " 赤兔 " 里实现开箱即用,同时持续接入更多开源模型,并支持更多模型精度。
展望未来,从技术层面看,清程极智这种基于鲲鹏平台为大模型推理加速的超智融合创新范式,引领计算技术迈入一个深度融合的全新发展阶段。而在应用层面,这种融合不仅能够让不同行业的复杂业务场景得到更精准、更高效的计算支持,也将 " 点燃 "AI for Science 加速科研成果转化,推动科研突破和产业数智化升级!
登录后才可以发布评论哦
打开小程序可以发布评论哦