每经 AI 快讯,2 月 4 日,腾讯混元 AI Infra 团队正式推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。在真实场景下,基于 HPC-Ops,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。同时,在单算子性能方面,HPC-Ops 实现 Attention 相比 FlashInfer/FlashAttention 最高提升 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。
每日经济新闻


登录后才可以发布评论哦
打开小程序可以发布评论哦