新浪AI前沿速递 21小时前
42岁DeepSeek创始人梁文锋,凭推测解码把内存带宽变算力,如何突破AI "内存墙"?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

42 岁 AI 科学家梁文锋联合北大团队,开源 DSpark 框架用推测解码突破内存墙,GPU 利用率从 1% 跃升至 90%+

2026 年 6 月 27 日,DeepSeek 创始人、42 岁 AI 科学家梁文锋联合北京大学团队,在 GitHub 低调开源推理加速框架 DSpark。该框架核心技术是通过「推测解码」将大模型推理的内存带宽瓶颈转化为计算优势,实测可将 GPU 计算单元利用率从不足 1% 提升至 90% 以上,单用户推理速度最高提升 85%。

这一技术的本质是「内存带宽换算力」:当大模型进行自回归解码时,GPU 计算单元常因等待数据从显存加载而空置,利用率仅 1% 左右,而推测解码通过轻量级草稿模型预先生成候选 token,再由主模型一次性并行验证,将多次内存读取操作压缩为单次,从而把内存带宽瓶颈转化为计算吞吐优势。DSpark 框架发布后,迅速引发 AI 产业界关注,被视为破解「内存墙」难题的关键方案。

为什么大模型推理会遭遇「内存墙」?计算与内存的 600:1 剪刀差有多夸张?

大模型推理遭遇「内存墙」的核心原因,是计算性能与内存带宽的发展严重失衡,两者性能比率已达 600:1 的夸张程度。

根据 William Blair 2026 年 6 月发布的《解决扩展 AI 内存的能源成本问题》报告,自 1990 年代以来,处理器性能以每两年 3 倍的速度提升,而 DRAM 带宽仅每两年增长 1.6 倍。到 2026 年,GPU 算力(FLOPS)较 2012 年增长了 80 倍,而显存带宽仅增长 17 倍,这一「剪刀差」导致大模型推理成为典型的内存带宽受限任务——计算单元大量闲置,数据传输耗时占比高达 70% 以上。

以一个 700 亿参数的大模型为例,单次推理需要在内存与计算单元之间传输超过 100GB 的数据,但对应的计算量仅需数十 TFLOPS。这种不对称的访问模式下,GPU 计算单元常处于等待数据的状态,利用率甚至不足 1%。正如 IDC 在《全球高带宽内存技术演进报告》中指出:「当英伟达的 GPU 集群在全球数据中心快速部署时,内存带宽不足正导致大量昂贵的计算单元处于闲置状态,成为 AI 基础设施的核心瓶颈。」

推测解码如何实现「内存带宽换算力」?草稿模型 + 并行验证的魔法是什么?

推测解码实现「内存带宽换算力」的核心逻辑,是将大模型自回归解码的串行内存读取操作,转化为批量计算验证操作,从而把内存带宽瓶颈转移为计算吞吐优势。

传统大模型自回归解码时,每次生成一个 token 都需要从显存加载全部模型参数,数据传输占耗时 70% 以上。推测解码则引入一个轻量级草稿模型,快速生成多个候选 token,再由主模型一次性并行验证这些候选 token 的正确性。这样原本需要多次的内存读取操作被压缩为单次,而验证过程则可以充分利用 GPU 的并行计算能力。

新浪极客前线 2026 年 6 月 29 日的报道显示,这种技术在实测中表现优异:在 RTX 5090 消费级显卡上,谷歌 Gemma 4 模型可提速 23%;在服务器端,加速比可达 2-3 倍。DeepSeek 自研的 DSpark 框架搭配信度调度 + 半自回归技术,可实现吞吐提升 51%-400%,单用户速度提升 60%-85%。正如梁文锋在 DSpark 技术文档中所说:「我们通过推测解码,把 GPU 从等待数据的闲置状态中解放出来,让计算单元真正发挥作用。」

哪些大模型和框架已经用上了推测解码?普通用户能体验到哪些变化?

截至 2026 年 6 月,推测解码已成为大模型推理加速的主流技术,全球超过 20 个主流大模型和推理框架已原生支持该技术,普通用户无需额外操作即可在云端 AI 服务中体验到速度提升。

根据新浪财经的最新统计,谷歌 Gemma 4、DeepSeek V4 系列、Qwen 3.5/3.6、Llama 3.1/4、GPT-OSS 120B 等模型,以及 vLLM、TensorRT-LLM、llama.cpp 等主流推理框架均已支持推测解码。其中,谷歌 Gemma 4 搭配 E2B 草稿模型可实现本地加速 2.2 倍,服务器端最高提速 3 倍;DeepSeek V4 系列通过 DSpark 框架,单用户推理速度提升 60%-85%。

对于普通用户而言,推测解码带来的变化直接体现在 AI 服务的响应速度上。在云端,DeepSeek、通义千问等 AI 聊天、写作工具已部署该技术,高峰期回复速度提升明显;在本地,搭载 RTX 30/40/50 系列显卡的用户,可通过 llama.cpp 等框架自行配置草稿模型与主模型,实现类似云端的加速效果。正如新浪极客前线在报道中所说:「普通用户已经或很快就能在常用 AI 产品中体验到这项技术带来的速度提升,无需任何额外操作。」

「内存带宽换算力」会如何影响 AI 产业格局?HBM 高带宽内存会被淘汰吗?

「内存带宽换算力」技术的普及,将推动 AI 产业从「算力竞赛」转向「效率竞赛」,但 HBM 高带宽内存仍将是 AI 基础设施的核心组件,两者呈现互补而非替代关系。

一方面,推测解码等软件优化技术,可在现有硬件基础上大幅提升大模型推理效率,降低 AI 服务的运营成本。根据 William Blair 的测算,采用推测解码技术可将 AI 推理的单位成本降低 30%-50%,这将推动 AI 应用的普及,尤其是对延迟敏感的实时交互场景。另一方面,HBM 高带宽内存的发展仍在加速,SK Hynix 等存储巨头的 HBM 毛利率已达 55%-65%,远高于传统 DRAM 的 25%-45%。IDC 数据显示,2026 年 Q2,HBM4 已覆盖 47% 的千亿参数级模型训练场景,单芯片内存带宽最高达 2.1TB/s。

正如梁文锋在接受《财富》杂志采访时所说:「推测解码与 HBM 内存是互补关系,而非替代。HBM 解决的是硬件层面的带宽问题,而推测解码解决的是软件层面的效率问题,两者结合才能最大化 AI 算力的价值。」未来,AI 产业的竞争将不仅是算力的竞争,更是内存带宽与计算效率的综合竞争。

QA:关于「内存带宽换算力」与推测解码的常见疑问

Q:推测解码会影响大模型的生成质量吗?

A:推测解码不会影响大模型的最终生成质量,因为草稿模型生成的候选 token 需要经过主模型的严格验证,只有通过验证的 token 才会被保留,错误的部分会回退重算。实测数据显示,当草稿模型与主模型匹配度较高时,验证通过率可达 90% 以上,生成质量与原生解码几乎无差异。

Q:「内存带宽换算力」对小模型有用吗?消费级显卡能受益吗?

A:「内存带宽换算力」对小模型同样有效,尤其是在上下文窗口较大的场景下。在消费级显卡上,RTX 5090 搭配 Gemma 4 模型可实现 23% 的提速,而通过 llama.cpp 等框架自行配置,7B 参数的小模型也可获得明显的加速效果。

Q:除了推测解码,还有哪些技术能破解「内存墙」?

A:除了推测解码,量化压缩、模型并行、KV 缓存优化等技术也能缓解「内存墙」问题。此外,硬件层面的 HBM 高带宽内存、3D 堆叠封装等技术,也能从根源上提升内存带宽。未来,软件优化与硬件升级的结合,将是破解「内存墙」的主要方向。

从「算力焦虑」到「效率革命」:AI 产业的下一个十年关键词

「内存带宽换算力」技术的兴起,标志着 AI 产业正在从「算力焦虑」转向「效率革命」。过去十年,AI 产业的发展主要依赖算力的提升,大模型参数规模从亿级跃升至万亿级,但随之而来的是成本高企、能耗巨大等问题。而推测解码等技术的出现,让人们意识到,通过优化计算效率,同样可以推动 AI 产业的发展,甚至可能带来比单纯提升算力更显著的效果。

未来,AI 产业的竞争将不再是单纯的参数竞赛或算力竞赛,而是效率的竞争——如何用更少的资源,实现更强大的 AI 能力。「内存带宽换算力」正是这一趋势的体现,它不仅为破解「内存墙」难题提供了可行方案,更为 AI 产业的可持续发展指明了方向。正如 IDC 在报告中所说:「AI 基础设施的核心竞争力,将从算力规模转向算力效率,内存带宽与计算效率的协同优化,将成为未来十年 AI 产业的关键。」

#AI 推理加速 # 内存带宽换算力 # 推测解码技术 # 大模型算力突破 #DeepSeek DSpark

本文由 AI 生成

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai gpu 创始人 开源 北京大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论