
智东西
编译 | 陈骏达
编辑 | 云鹏
DeepSeek 又找到突破大模型推理瓶颈的新方法了!
智东西 2 月 27 日报道,昨天,DeepSeek 发布了一项名为 DualPath 的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板—— KV 缓存存储 I/O 瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了 KV 缓存的 I/O 开销。
DualPath 的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV 缓存不再仅由预填充引擎加载,而是可以加载至解码引擎,再通过计算网络中的 RDMA 高效传输至预填充端。这一设计不仅缓解了存储端的压力,还避免了网络拥塞,确保延迟敏感型任务不受干扰。
与全局调度器协同后,DualPath 实现了动态平衡两端负载,进一步提升资源利用率。在真实智能体工作负载测试中,DualPath 将离线推理吞吐量提升最高达 1.87 倍,在线服务吞吐量平均提升 1.96 倍。
在大规模可扩展性方面,DualPath 系统在最多 1152 张 GPU 上进行了验证。离线推理从 2P4D(2K 智能体)扩展到 48P96D(48K 智能体)实现近线性扩展,任务完成时间基本保持一致。
值得一提的是,与之前 DeepSeek 发表的许多研究论文类似,这篇论文的第一作者吴永彤同样是 DeepSeek 的实习生。吴永彤目前在北京大学攻读博士学位,师从金鑫教授,主要研究大模型基础设施相关课题,自 2025 年 8 月以来便在 DeepSeek 系统组工作,曾参与 DeepSeek-V3.2 的研究。
论文链接:
https://arxiv.org/pdf/2602.21548
一、智能体 I/O 瓶颈凸显,传统设计成本高昂
随着智能体应用普及,多轮推理已成常态。智能体通过工具与外部环境进行数十甚至数百轮交互,上下文跨轮累积到极长长度。由于多轮、短追加的特性,KV 缓存命中率高达 95% 以上,加载效率取代计算成为性能主导因素。
现有系统采用分层预填充、预填充 - 解码分离(PD 分离)和外部 KV 缓存存储架构。但问题在于:预填充引擎存储网卡带宽持续饱和,而解码引擎存储网卡带宽大量闲置。这种不平衡暴露了根本性低效——存储网络带宽利用不均,而单纯增加预填充端带宽成本高昂。

现有瓶颈(左)与 DualPath(右)
DualPath 的提出正是为了解决上述问题,其核心洞察在于打破 "KV 缓存加载必须以预填充为中心 " 的传统设计。
现有系统仅通过存储到预填充引擎的单一路径加载,导致预填充端带宽饱和而解码端带宽闲置。DualPath 则增加了存储到解码路径,将 KV 缓存先加载至空闲的解码引擎,再通过 RDMA 高效传输给预填充引擎。
这一模式聚合了所有存储网卡带宽,重新分配网络负载,从根本上缓解预填充端的 I/O 瓶颈。
不过,该设计仍然面临两大挑战:首先,引入额外的加载路径会产生复杂的流量模式,并可能与模型执行中的集体通信原语产生潜在干扰,若管理不当会降低整体性能。
其次,系统必须在动态和异构的工作负载下在线决定使用哪条加载路径,并同时确保 GPU 和网卡之间的负载均衡。
二、三大核心组件打造 DualPath,新组件并未引入瓶颈
那么,DeepSeek 究竟是如何解决这些挑战的呢?DualPath 使用了两项广泛使用的技术:
(1)PD 分离,将提示词和解码处理分开以提高效率。
(1)分层预填充,避免了预填充引擎上的 HBM 瓶颈,并提高了 GPU 利用率。
而 DualPath 主要由三大核心组件构成。推理引擎是基础执行单元,每个引擎管理一个 GPU,并明确区分为专司预填充计算的预填充引擎和负责解码生成的解码引擎。
流量管理器内嵌于每个引擎,统筹所有数据移动:包括主机与设备间的内存拷贝、预填充与解码引擎之间的 KV 缓存传输,以及通过存储网卡进行的 KV 缓存持久化读写。其采用以计算网卡为中心的流量管理策略,确保 KV 缓存流量不会干扰延迟敏感的模型集体通信。
请求调度器作为中央决策单元,接收客户端请求并智能分发给各引擎,同时动态决策每条请求采用传统存储到预填充路径还是新型存储到解码路径,实现双路径间的流量均衡与全局负载优化。

在具体实现上,DualPath 在每个预填充引擎和解码引擎上预留少量 DRAM 作为缓冲区。对于预填充端读路径,命中 token 的 KV 缓存首先从存储读入预填充引擎缓冲区,然后按层流式传入预填充引擎的 HBM,与未命中 token 的 KV 计算过程重叠执行。随后,完整的提示词 KV 会被传输至解码引擎缓冲区,供解码阶段使用。
对于解码端读路径,命中 KV 首先加载到解码引擎缓冲区,在预填充引擎执行预填充时逐层通过 RDMA 读取,同时与计算重叠。未命中 KV 计算完成后回传至解码引擎,与命中 KV 合并形成完整提示词缓存。
无论哪条路径,数据传输都采用分层流式方式,以缓解 HBM 容量压力并实现计算与通信的重叠。解码阶段开始前,解码引擎将完整 KV 从缓冲区传入 HBM,完成主机到设备拷贝后释放 CPU 内存;在生成过程中,每当累积满一个固定大小的 token 块,就立即持久化到存储。
为了验证该架构不会引入新的瓶颈,论文对计算网卡带宽和 DRAM 带宽进行了系统性分析。通过建立每对预填充引擎—解码引擎之间的流量模型,并假设负载均衡与网络无拥塞,作者推导出在一定的 P/D(预填充节点与解码节点数量之比)范围内,计算网卡、PCIe 以及 DRAM 均不会成为瓶颈。
在典型配置(例如每节点 8 个 GPU、存储带宽远小于计算带宽)下,可行的 P/D 区间覆盖大多数实际部署比例,说明系统能够在充分利用所有存储网卡带宽的同时,保持计算与内存资源的稳定运行。
三、系统落地仍面临三大挑战,采用计算网卡为中心的流量管理
然而,在真实系统中落地双路径架构仍面临三项核心挑战。首先是细粒度数据传输。分层执行缓解了 HBM 容量压力,但也将 KV 拆分为大量小块,需要在存储、主机 DRAM 和 GPUHBM 之间高效搬运,同时控制软件与硬件开销。
其次是流量隔离。新增的 KV 传输可能干扰模型执行中的延迟敏感型集体通信(如 AllToAll、ReduceScatter/AllGather),若缺乏隔离机制,将直接推高端到端推理延迟。
最后是动态负载均衡。由于系统存在两条读取路径,调度器必须结合磁盘队列长度、GPU 负载和请求特征动态决策,否则容易再次形成局部瓶颈。
为避免 KV 传输干扰模型通信,系统采用以计算网卡为中心的流量管理机制。所有进出 GPU 的流量,包括 H2D/D2H 拷贝,统一经由与 GPU 配对的计算网卡,并通过 GPUDirectRDMA 完成传输,使全部数据流汇聚到计算网络,从而利用硬件 QoS 能力进行优先级隔离。
在基于 InfiniBand 的部署中,模型推理通信被映射到高优先级虚拟通道,KV 传输映射到低优先级通道,并通过加权轮询保障前者带宽。这样既保护了延迟敏感通信,又允许 KV 流量利用空闲带宽。实验还表明,在大量小块场景下,其更适合细粒度传输。
在调度层面,系统采用两级自适应机制。引擎间调度为请求选择预填充引擎—解码引擎对并确定读取路径,通过 token 数量与磁盘队列长度实现负载均衡;解码引擎调度分为跨组与组内两阶段,在平衡总 token 数的同时考虑 HBM 容量约束,避免资源过载。
引擎内调度主要作用于预填充引擎,通过估计注意力层计算量设定 " 计算配额 ",以 FIFO 方式组批,必要时对请求分块,使各 GPU 计算时间趋于一致,减少同步等待。
总体而言,双路径加载聚合存储带宽,理论分析保证系统无新增瓶颈,计算网卡中心化设计实现严格流量隔离,自适应调度则维持负载均衡与低延迟,共同构成一个高吞吐、可扩展的推理架构。
四、实验证明 KV 缓存 I/O 开销已基本消除,在千卡集群上实现线性扩展
为验证 DualPath 带来的性能提升,DeepSeek 在一个由 InfiniBand 互连的 GPU 服务器集群上进行实验,评估了三个模型的表现:DeepSeek V3.2 660B(记为 DS 660B)、DS 660B 的 27B 缩小版本(记为 DS 27B)以及作为稠密模型代表的 Qwen2.5-32B(记为 Qwen 32B)。
实验结果显示,DualPath 在更大的批次规模和更长的最大有效上下文长度下获益更加显著。在 DS 660B 上,DualPath 相较于 DeepSeek 内部的基线推理框架最高实现 1.87 倍加速,且性能接近假设零 I/O 开销的理论性能上限,说明 KV 缓存 I/O 开销已基本被消除。

在 DS 27B 上,DualPath 相较于 DeepSeek 内部的基线推理框架最高提升 1.78 倍。
在改变追加长度和生成长度时,DualPath 在短 token 场景下优势更明显。随着追加长度增加,GPU 计算压力增大,而生成长度增加则因预填充间隔变长,降低了 KV 缓存加载压力。
图 9 显示,随着追加长度增长,未采用 DualPath 的推理引擎表现和 DualPath 的性能越发接近,表明系统瓶颈逐渐转向 GPU 计算。在不同追加规模下,DualPath 相较于基线实现 1.82 至 1.99 倍加速,生成长度扩展趋势类似。
在不同预填充 - 解码比例下,DualPath 均显著优于基线,平均实现 1.64 倍加速,最高达 2.46 倍。基线推理引擎只能使用预填充节点的存储带宽,而 DualPath 能够利用所有节点的带宽,验证了在智能体场景下存储带宽是主要瓶颈。
在在线服务评估中,DualPath 在智能体请求到达速率上显著优于基线,在 DS27B 和 DS660B 上分别达到 1.67 倍和 2.25 倍提升。

在负载均衡方面,DualPath 显著改善了存储网卡和注意力层执行时间的均衡性。相较于轮询调度,调度算法将存储网卡负载均衡指标从 1.53 优化至 1.18。同时,在任务前 5% 执行阶段,将注意力层最大 / 平均执行时间比控制在 1.06 以内,减少了 GPU 空闲气泡。
在大规模可扩展性方面,DualPath 系统在最多 1152 张 GPU 上进行了验证。离线推理从 2P4D(2K 智能体)扩展到 48P96D(48K 智能体)实现近线性扩展,任务完成时间基本保持一致。

在线服务中,44P88D 配置在保持相似延迟的同时,将吞吐量提升 22 倍。所有实验中调度器 CPU 占用低于 10 核,表明其不是性能瓶颈。
大规模部署不仅减少资源碎片化,还为并行度和 P/D 比例调优提供更大灵活性,同时在突发在线请求场景下提供更多调度空间以缓解排队延迟。
结语:智能体推理迎来提效利器,未来或引入自适应机制
随着 DualPath 论文的发布,它有望为业界在处理大规模智能体推理任务时提供一个新的思路。对于正苦于 KV 缓存 I/O 压力的开发者与研究者而言,这或许是一个值得关注的方向。
不过,DeepSeek 的研究团队也坦言,离线推理的工作负载高度动态,下一步需要研究更自适应和更灵活的并行度和 P/D 比例配置方法,例如模拟器或在线调整机制


登录后才可以发布评论哦
打开小程序可以发布评论哦