DeepSeek开源大餐来了！解锁H800，带飞GPU推理速度，1小时10万观看

作者｜程茜

编辑｜心缘

智东西 2 月 24 日报道，刚刚，DeepSeek 开源周第一天重磅更新来了，开源首个代码库——FlashMLA，发布一小时 GitHub Star 数冲上1700。

FlashMLA 指的是DeepSeek 针对 Hopper GPU 的高效 MLA 解码内核，针对可变长度序列进行了优化，现已投入生产。目前已发布的内容包括：采用 BF16，以及块大小为 64 的分页 kvcache（键值缓存）。

使用 CUDA 12.6，在 H800 SXM5 上，其性能指标是：

3000 GB/s内存带宽（内存限制性能），支持快速数据访问和传输。

580 TFLOPS计算性能（计算约束性能），为 AI 工作负载提供高计算吞吐量。

这种优化可以确保 FlashMLA 在高性能硬件上有效地处理大语言模型和其他 AI 应用程序的密集计算需求。

快速启动安装：

用法：

FlashMLA 的使用基准为：Hopper GPU、CUDA 12.3 及以上版本、PyTorch 2.0 及以上版本。

DeepSeek 介绍称，FlashMLA 受到FlashAttention 2&3和CUTLASS项目的启发。

其中，FlashAttention 是斯坦福联合纽约州立大学在 22 年 6 月份提出的一种具有 IO 感知，且兼具快速、内存高效的新型注意力算法；CUTLASS 是由英伟达开发和维护的开源项目，CUTLASS 提供了更高级别的灵活性和可配置性，允许用户自定义和优化矩阵运算的细节。

DeepSeek 开源 FlashMLA 的推文发布不到一小时，就已经吸引了超 10 万人关注，上百条评论。

已有海外开发者第一时间研究起了 FlashMLA 的代码库，他感叹道：" 真是纯粹的工程，太爱了！"

有一位英伟达股民跑到 DeepSeek 的评论区祈祷，希望 DeepSeek 能在不影响英伟达股价的前提下，让 GPU 更为高效。

更多海外网友已经迫不及待，开启了催更模式，有人让 DeepSeek 抓紧研发语音模式，也有人猜想第五天发布的开源产品会不会是 AGI。

拉踩 OpenAI 已经成为 DeepSeek 评论区中的常见现象，这位网友就称，OpenAI 应该干脆就把域名无偿捐赠给 DeepSeek：

GitHub 地址：https://github.com/deepseek-ai/FlashMLA

结语：DeepSeek 开源周，后四弹蓄势待发

DeepSeek 开源周开启，本周首个重磅发布 FlashMLA 瞬间点燃 AI 圈的热情。本周后续，DeepSeek 还将开源四个代码库，或许会与 AI 算法优化、模型轻量化、应用场景拓展等相关，涵盖多个关键领域。

期待接下来的四场技术盛宴，向开源者们致敬。

宙世代