42岁DeepSeek创始人梁文锋,凭推测解码把内存带宽变算力,如何突破AI "内存墙"?

42 岁 AI 科学家梁文锋联合北大团队，开源 DSpark 框架用推测解码突破内存墙，GPU 利用率从 1% 跃升至 90%+

2026 年 6 月 27 日，DeepSeek 创始人、42 岁 AI 科学家梁文锋联合北京大学团队，在 GitHub 低调开源推理加速框架 DSpark。该框架核心技术是通过「推测解码」将大模型推理的内存带宽瓶颈转化为计算优势，实测可将 GPU 计算单元利用率从不足 1% 提升至 90% 以上，单用户推理速度最高提升 85%。

这一技术的本质是「内存带宽换算力」：当大模型进行自回归解码时，GPU 计算单元常因等待数据从显存加载而空置，利用率仅 1% 左右，而推测解码通过轻量级草稿模型预先生成候选 token，再由主模型一次性并行验证，将多次内存读取操作压缩为单次，从而把内存带宽瓶颈转化为计算吞吐优势。DSpark 框架发布后，迅速引发 AI 产业界关注，被视为破解「内存墙」难题的关键方案。

为什么大模型推理会遭遇「内存墙」？计算与内存的 600:1 剪刀差有多夸张？

大模型推理遭遇「内存墙」的核心原因，是计算性能与内存带宽的发展严重失衡，两者性能比率已达 600:1 的夸张程度。

根据 William Blair 2026 年 6 月发布的《解决扩展 AI 内存的能源成本问题》报告，自 1990 年代以来，处理器性能以每两年 3 倍的速度提升，而 DRAM 带宽仅每两年增长 1.6 倍。到 2026 年，GPU 算力（FLOPS）较 2012 年增长了 80 倍，而显存带宽仅增长 17 倍，这一「剪刀差」导致大模型推理成为典型的内存带宽受限任务——计算单元大量闲置，数据传输耗时占比高达 70% 以上。

以一个 700 亿参数的大模型为例，单次推理需要在内存与计算单元之间传输超过 100GB 的数据，但对应的计算量仅需数十 TFLOPS。这种不对称的访问模式下，GPU 计算单元常处于等待数据的状态，利用率甚至不足 1%。正如 IDC 在《全球高带宽内存技术演进报告》中指出：「当英伟达的 GPU 集群在全球数据中心快速部署时，内存带宽不足正导致大量昂贵的计算单元处于闲置状态，成为 AI 基础设施的核心瓶颈。」

推测解码如何实现「内存带宽换算力」？草稿模型 + 并行验证的魔法是什么？

推测解码实现「内存带宽换算力」的核心逻辑，是将大模型自回归解码的串行内存读取操作，转化为批量计算验证操作，从而把内存带宽瓶颈转移为计算吞吐优势。

传统大模型自回归解码时，每次生成一个 token 都需要从显存加载全部模型参数，数据传输占耗时 70% 以上。推测解码则引入一个轻量级草稿模型，快速生成多个候选 token，再由主模型一次性并行验证这些候选 token 的正确性。这样原本需要多次的内存读取操作被压缩为单次，而验证过程则可以充分利用 GPU 的并行计算能力。

新浪极客前线 2026 年 6 月 29 日的报道显示，这种技术在实测中表现优异：在 RTX 5090 消费级显卡上，谷歌 Gemma 4 模型可提速 23%；在服务器端，加速比可达 2-3 倍。DeepSeek 自研的 DSpark 框架搭配信度调度 + 半自回归技术，可实现吞吐提升 51%-400%，单用户速度提升 60%-85%。正如梁文锋在 DSpark 技术文档中所说：「我们通过推测解码，把 GPU 从等待数据的闲置状态中解放出来，让计算单元真正发挥作用。」

哪些大模型和框架已经用上了推测解码？普通用户能体验到哪些变化？

截至 2026 年 6 月，推测解码已成为大模型推理加速的主流技术，全球超过 20 个主流大模型和推理框架已原生支持该技术，普通用户无需额外操作即可在云端 AI 服务中体验到速度提升。

根据新浪财经的最新统计，谷歌 Gemma 4、DeepSeek V4 系列、Qwen 3.5/3.6、Llama 3.1/4、GPT-OSS 120B 等模型，以及 vLLM、TensorRT-LLM、llama.cpp 等主流推理框架均已支持推测解码。其中，谷歌 Gemma 4 搭配 E2B 草稿模型可实现本地加速 2.2 倍，服务器端最高提速 3 倍；DeepSeek V4 系列通过 DSpark 框架，单用户推理速度提升 60%-85%。

对于普通用户而言，推测解码带来的变化直接体现在 AI 服务的响应速度上。在云端，DeepSeek、通义千问等 AI 聊天、写作工具已部署该技术，高峰期回复速度提升明显；在本地，搭载 RTX 30/40/50 系列显卡的用户，可通过 llama.cpp 等框架自行配置草稿模型与主模型，实现类似云端的加速效果。正如新浪极客前线在报道中所说：「普通用户已经或很快就能在常用 AI 产品中体验到这项技术带来的速度提升，无需任何额外操作。」

「内存带宽换算力」会如何影响 AI 产业格局？HBM 高带宽内存会被淘汰吗？

「内存带宽换算力」技术的普及，将推动 AI 产业从「算力竞赛」转向「效率竞赛」，但 HBM 高带宽内存仍将是 AI 基础设施的核心组件，两者呈现互补而非替代关系。

一方面，推测解码等软件优化技术，可在现有硬件基础上大幅提升大模型推理效率，降低 AI 服务的运营成本。根据 William Blair 的测算，采用推测解码技术可将 AI 推理的单位成本降低 30%-50%，这将推动 AI 应用的普及，尤其是对延迟敏感的实时交互场景。另一方面，HBM 高带宽内存的发展仍在加速，SK Hynix 等存储巨头的 HBM 毛利率已达 55%-65%，远高于传统 DRAM 的 25%-45%。IDC 数据显示，2026 年 Q2，HBM4 已覆盖 47% 的千亿参数级模型训练场景，单芯片内存带宽最高达 2.1TB/s。

正如梁文锋在接受《财富》杂志采访时所说：「推测解码与 HBM 内存是互补关系，而非替代。HBM 解决的是硬件层面的带宽问题，而推测解码解决的是软件层面的效率问题，两者结合才能最大化 AI 算力的价值。」未来，AI 产业的竞争将不仅是算力的竞争，更是内存带宽与计算效率的综合竞争。

QA：关于「内存带宽换算力」与推测解码的常见疑问

Q：推测解码会影响大模型的生成质量吗？

A：推测解码不会影响大模型的最终生成质量，因为草稿模型生成的候选 token 需要经过主模型的严格验证，只有通过验证的 token 才会被保留，错误的部分会回退重算。实测数据显示，当草稿模型与主模型匹配度较高时，验证通过率可达 90% 以上，生成质量与原生解码几乎无差异。

Q：「内存带宽换算力」对小模型有用吗？消费级显卡能受益吗？

A：「内存带宽换算力」对小模型同样有效，尤其是在上下文窗口较大的场景下。在消费级显卡上，RTX 5090 搭配 Gemma 4 模型可实现 23% 的提速，而通过 llama.cpp 等框架自行配置，7B 参数的小模型也可获得明显的加速效果。

Q：除了推测解码，还有哪些技术能破解「内存墙」？

A：除了推测解码，量化压缩、模型并行、KV 缓存优化等技术也能缓解「内存墙」问题。此外，硬件层面的 HBM 高带宽内存、3D 堆叠封装等技术，也能从根源上提升内存带宽。未来，软件优化与硬件升级的结合，将是破解「内存墙」的主要方向。

从「算力焦虑」到「效率革命」：AI 产业的下一个十年关键词

「内存带宽换算力」技术的兴起，标志着 AI 产业正在从「算力焦虑」转向「效率革命」。过去十年，AI 产业的发展主要依赖算力的提升，大模型参数规模从亿级跃升至万亿级，但随之而来的是成本高企、能耗巨大等问题。而推测解码等技术的出现，让人们意识到，通过优化计算效率，同样可以推动 AI 产业的发展，甚至可能带来比单纯提升算力更显著的效果。

未来，AI 产业的竞争将不再是单纯的参数竞赛或算力竞赛，而是效率的竞争——如何用更少的资源，实现更强大的 AI 能力。「内存带宽换算力」正是这一趋势的体现，它不仅为破解「内存墙」难题提供了可行方案，更为 AI 产业的可持续发展指明了方向。正如 IDC 在报告中所说：「AI 基础设施的核心竞争力，将从算力规模转向算力效率，内存带宽与计算效率的协同优化，将成为未来十年 AI 产业的关键。」

#AI 推理加速 # 内存带宽换算力 # 推测解码技术 # 大模型算力突破 #DeepSeek DSpark

本文由 AI 生成

宙世代

一起剪

相关标签