作者|程茜
编辑|心缘
智东西 2 月 24 日报道,刚刚,DeepSeek 开源周第一天重磅更新来了,开源首个代码库——FlashMLA,发布一小时 GitHub Star 数冲上1700。
FlashMLA 指的是DeepSeek 针对 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列进行了优化,现已投入生产。目前已发布的内容包括:采用 BF16,以及块大小为 64 的分页 kvcache(键值缓存)。
使用 CUDA 12.6,在 H800 SXM5 上,其性能指标是:
3000 GB/s内存带宽(内存限制性能),支持快速数据访问和传输。
580 TFLOPS计算性能(计算约束性能),为 AI 工作负载提供高计算吞吐量。
这种优化可以确保 FlashMLA 在高性能硬件上有效地处理大语言模型和其他 AI 应用程序的密集计算需求。
快速启动安装:
用法:
FlashMLA 的使用基准为:Hopper GPU、CUDA 12.3 及以上版本、PyTorch 2.0 及以上版本。
DeepSeek 介绍称,FlashMLA 受到FlashAttention 2&3和CUTLASS项目的启发。
其中,FlashAttention 是斯坦福联合纽约州立大学在 22 年 6 月份提出的一种具有 IO 感知,且兼具快速、内存高效的新型注意力算法;CUTLASS 是由英伟达开发和维护的开源项目,CUTLASS 提供了更高级别的灵活性和可配置性,允许用户自定义和优化矩阵运算的细节。
DeepSeek 开源 FlashMLA 的推文发布不到一小时,就已经吸引了超 10 万人关注,上百条评论。
已有海外开发者第一时间研究起了 FlashMLA 的代码库,他感叹道:" 真是纯粹的工程,太爱了!"
有一位英伟达股民跑到 DeepSeek 的评论区祈祷,希望 DeepSeek 能在不影响英伟达股价的前提下,让 GPU 更为高效。
更多海外网友已经迫不及待,开启了催更模式,有人让 DeepSeek 抓紧研发语音模式,也有人猜想第五天发布的开源产品会不会是 AGI。
拉踩 OpenAI 已经成为 DeepSeek 评论区中的常见现象,这位网友就称,OpenAI 应该干脆就把域名无偿捐赠给 DeepSeek:
GitHub 地址:https://github.com/deepseek-ai/FlashMLA
结语:DeepSeek 开源周,后四弹蓄势待发
DeepSeek 开源周开启,本周首个重磅发布 FlashMLA 瞬间点燃 AI 圈的热情。本周后续,DeepSeek 还将开源四个代码库,或许会与 AI 算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域。
期待接下来的四场技术盛宴,向开源者们致敬。
登录后才可以发布评论哦
打开小程序可以发布评论哦