近期,由深度求索(DeepSeek)发布的最新生成式 AI 大模型 DeepSeek-V3 火爆海内外科技圈。AMD 数据中心 GPU 也第一时间实现了对 DeepSeek-V3 模型的支持,且集成了 SGLang 优化以提供最佳性能。
DeepSeek-V3 是一个强大的开源混合专家 MoE(Mixture-of-Experts)模型,共有 6710 亿个参数,也是目前开源社区最受欢迎的多模态模型之一,其创新模型架构打破了高效低成本训练的记录,令业界称赞。DeepSeek-V3 不仅 沿用了 V2 中的多头潜在注意力机制(Multi-headLatent Attention, MLA)及 DeepSeek MoE 架构, 还开创了一种无辅助损失的负载平衡策略,并设定了多 token 预测训练目标以提高性能。DeepSeek-V3 允许开发人员使用高级模型,充分利用内存以同时处理文本和视觉数据,为开发人员提供更多功能。目前,DeepSeek-V3 在各个主流基准测试中比肩世界顶级开源及闭源模型,如 GPT-4o,Claude 3.5 Sonnet, Qwen2.5-72B 等,更展现出超强的长文本处理、数学及代码编程能力,堪称惊艳。
AMD ROCm 开源软件和 DeepSeek-V3
DeepSeek-V3 的问世正在悄然改变多模态大模型的格局。以往多模态大模型的训练或推理往往需要巨大的计算资源和内存带宽来处理文本和视觉数据,AMD 数据中心 GPU 加速器在这些领域提供了卓越的性能。
AMDROCm ™ 开源软件和 AMD 数据中心 GPU 加速器在 DeepSeek-V3 开发的关键阶段发挥了重要作用,AMD 的可扩展基础设施使开发人员能够构建强大的视觉推理和理解应用。
采用 FP8 低精度训练是 DeepSeek-V3 的一大亮点,AMD ROCm 对 FP8 的 支持显著改善了大模型的计算过程,尤其是推理性能的提升。通过对 FP8 的支持,ROCm 能够更高效地解决内存瓶颈和与更多读写格式相关的高延迟问题,使更大的模型或批次能够在相同的硬件限制内处理;此外,相较于 FP16,FP8 精度计算可以显著减少数据传输和计算的延迟,从而实现更高效地训练和推理。AMD ROCm 在其生态系统中扩展了对 FP8 的支持,能够满足用户对从框架到计算库全面性能和效率提升的需求。
如何在 AMD 数据中心 GPU 上使用 SGLang 进行推理
开发者可访问https://github.com/sgl-project/sglang/releases 获取 SGLang 对 DeepSeek-V3 模型推理的完整支持。
创建 ROCm Docker 镜像
启动 Docker 容器:
docker run -it – ipc=host – cap-add=SYS_PTRACE – network=host \
– device=/dev/kfd – device=/dev/dri – security-opt seccomp=unconfined \
– group-add video – privileged-w /workspace lmsysorg/sglang:v0.4.1.post4-rocm620
使用 CLI 登录 Hugging Face:
huggingface-cli login
启动 SGLang 服务器:
在本地机器上启动一个服务器来托管 DeepSeekV3 FP8 模型:
python3 -m sglang.launch_server – model-path deepseek-ai/DeepSeek-V3 – port 30000 – tp 8 – trust-remote-code
在服务器运行后,打开另一个终端并发送请求生成文本:
curl http://localhost:30000/generate
-H "Content-Type:application/json"
-d ‘ {
"text": "Onceupon a time,",
"sampling_params": {
"max_new_tokens":16,
"temperature": 0
}
} ’
单批次吞吐量和延迟:
python3 -m sglang.bench_one_batch – batch-size 32 – input 128 – output32 – model deepseek-ai/DeepSeek-V3 – tp 8 – trust-remote-code
服务器:
python3 -m sglang.launch_server – model deepseek-ai/DeepSeek-V3 – tp 8 – trust-remote-code
python3 benchmark/gsm8k/bench_sglang.py – num-questions 2000 – parallel 2000 – num-shots 8
精度:0.952
无效:0.000
注意:由于 DeepSeek-v3 原生为 FP8 训练,且目前仅提供 FP8 权重,如果用户需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。以下是将 FP8 权重转换为 BF16 的示例:
cd inference
python fp8_cast_bf16.py – input-fp8-hf-path /path/to/fp8_weights – output-bf16-hf-path /path/to/bf16_weights
AMD + DeepSeek 构建开源 AI 新格局:Day 0 上线即支持
随着 DeepSeek-V3 的发布,AMD 将继续借助 ROCm 开源生态与 DeepSeek 推动创新。AMD AI 开源策略将确保开发者能够从 Day-0 开始使用基于 AMD 数据中心 GPU 的 DeepSeek 模型,通过更广泛的 GPU 硬件选择和开放的 ROCm ™软件栈, 以同时实现优化性能及可扩展性。AMD 将继续借助 CK-tile 内核优化等方式实现 DeepSeek 模型推理性能提升。同时,AMD 致力于与更多开源模型提供商合作,加速 AI 创新,并使开发人员能够创建下一代 AI 体验。
了解更多 AMD ROCm ™开源软件栈,包括可用于 AI 和 HPC 解决方案的模型、工具、编译器、库和运行时:https://www.amd.com/en/products/software/rocm.html
了解更多 AMD Instinct ™加速器:https://www.amd.com/en/products/accelerators/instinct.html
通过 Hugging Face 了解有关 DeepSeek-V3 的更多信息,包括其架构和性能基准:https://huggingface.co/deepseek-ai/DeepSeek-V3
访问 DeepSeek 官方聊天平台,与 DeepSeek-V3 聊天互动:chat.deepseek.com
访问 DeepSeek 兼容 OpenAI API,以在 DeepSeek 平台上构建和集成您自己的应用程序:platform.deepseek.com
登录后才可以发布评论哦
打开小程序可以发布评论哦