腾讯混元AI Infra核心技术开源，推理吞吐提升30%

IT 之家 2 月 4 日消息，腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。

该算子库宣称基于生产环境痛点，采用 CUDA 和 CuTe 从零构建，通过抽象化工程架构、微架构深度适配及指令级极致优化等，降低底层算子开发门槛，将核心算子性能逼近硬件峰值，实现了性能突破。

▲ HPC-Ops 算子库架构图

在真实场景下，基于 HPC-Ops，混元模型推理 QPM 提升 30%，DeepSeek 模型 QPM 提升 17%。同时，在单算子性能方面，HPC-Ops 实现 Attention 相比 FlashInfer / FlashAttention 最高提升 2.22 倍；GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍；FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。

在未来的发展规划中，HPC-Ops 将持续深耕大模型推理性能的突破方向：

一方面，将重点研发稀疏 Attention 算子，针对性解决长上下文大模型的内存与算力瓶颈；

另一方面，会拓展更丰富的量化策略，覆盖 4bit/8bit 混合精度等更多量化方案，进一步平衡推理速度与模型精度；

此外，算子库还将布局计算 - 通信协同优化的内核，通过融合多 GPU 间的计算逻辑与通信流程，大幅降低分布式推理场景下的通信开销，为超大规模大模型的高效部署提供底层支撑。

IT 之家附 HPC-Ops 开源地址如下：