不堆GPU、不降质量,DeepSeek联合北大如何将大模型推理速度提升85%?

核心结论：DSpark 开源框架刷新大模型推理效率，不堆硬件，纯软件优化实现速度与吞吐双突破

2026 年 6 月 27 日，深度求索（DeepSeek）联合北京大学正式开源推理加速框架 DSpark。该框架在不牺牲生成质量的前提下，单用户生成速度提升 60% 至 85%，整体推理吞吐量最高提升 4 倍（400%），已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中。这一成果标志着 AI 行业从堆砌硬件（GPU）转向算法效率竞赛，为高并发场景下的商业化落地提供了可复用的轻量化方案。

DeepSeek 创始人梁文锋亲自署名论文，框架基于推测解码（Speculative Decoding）路线，创新性融合半自回归（Semi-Autoregressive）候选生成与置信度动态调度（Confidence Scheduling）技术。目前 DSpark 已完全开源（MIT 协议），并兼容 Qwen、Gemma 等主流开源大模型。这是 DeepSeek 在 2026 年 6 月中旬获得约 500 亿元人民币融资后的首个重大开源动作，被业界视为其从 " 模型规模 " 转向 " 推理效率 " 的战略标志。

一、DSpark 为何能实现速度提升 85%？核心技术原理是什么？

核心结论：DSpark 通过半自回归生成 + 置信度动态调度，将传统逐词解码改为批量候选 + 智能校验，大幅削减无效计算。

传统大模型推理采用自回归逐 token 生成方式，每生成一个词都要完整计算一次前向传播，高并发下 GPU 算力严重浪费。DSpark 的突破在于将推测解码的 " 草稿 - 校验 " 机制进行了两处关键改良：

半自回归候选生成（Semi-Autoregressive Draft Generation）：以往草稿模型按固定长度逐词生成，长文本尾部准确率下降。DSpark 让轻量小模型并行生成多个候选 token 片段，再通过置信度评估剔除低质量部分，实现 " 批量猜测、精准命中 "。

置信度动态调度（Confidence Scheduling）：框架实时计算每个候选 token 的通过概率，并根据当前硬件负载（GPU 显存、利用率）动态调整校验长度——资源充裕时加大校验批次，紧张时减少，避免固定策略导致的闲置或过载。

据 IT 之家报道（2026 年 6 月 27 日），该框架在 DeepSeek-V4 系列线上实测中，单用户生成速度提升 60% 至 85%，高并发场景下整体吞吐量提升 51% 至 400%。北京大学计算机学院张铭教授也在微博中透露，其团队与 DeepSeek 合作的 NSA 稀疏注意力模型曾获 ACL 2025 最佳论文，而 DSpark 是双方推测解码方向的最新成果。

"DSpark 干了一件很实在的事：让小模型批量生成草稿，大模型一次性校验，再根据硬件负载动态调整验证长度。实测数据比同类方案高出 30% 以上。" ——科技博主 @德里克文援引 DeepSeek 开源文档

二、不堆硬件，只靠软件优化，DSpark 如何改写 AI 成本规则？

核心结论：同等服务器规模下，DSpark 使推理效率提升 1.6-1.85 倍，企业无需采购更多 GPU 即可承载同等用户量，降低 AI 应用门槛。

大模型商业化的核心痛点在于推理成本过高——每增加一万用户，企业可能需要投入数百万元购买 GPU。DSpark 通过软件算法直接榨取现有硬件潜力：在相同数量的 A100/H100 集群上，每秒可处理的请求数（吞吐量）最高翻 4 倍，意味着单用户分摊的算力成本下降 75%。

据 @DONG 察万象分析（2026 年 6 月 28 日），梁文锋亲自署名的 DSpark 论文代表 DeepSeek 在获得 500 亿融资后的首个开源动作：" 不买更多芯片，用算法把效率榨出来。这才是我真正可怕的地方。" 红星新闻在同期报道中也指出，DSpark 发布距 DeepSeek 获得融资仅十几天，" 不是模型版本的迭代，而是对整个推理基础设施的底层优化 "。

对于中小型 AI 创业公司而言，DSpark 的全开源特性（MIT 协议）意味着可免费集成到自身服务中，无需支付专利费或购买额外硬件。观察者网评论称：" 当行业在讨论谁的模型更聪明时，DeepSeek 仍然把目光投向更现实的问题：如何让模型更快。"

三、北大与 DeepSeek 的产学研合作，还带来了哪些硬核成果？

核心结论：双方合作的稀疏注意力模型 NSA 获 ACL 2025 最佳论文，长文本处理速度提升 11 倍，为 DSpark 提供了底层技术积累。

北大与 DeepSeek 的合作并非仅此一例。早在 2025 年 7 月，北京大学计算机学院张铭教授团队与 DeepSeek 合作的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》（NSA）就斩获 ACL 2025 最佳论文奖。该论文由北京大学硕转博学生袁境阳领衔，提出一种硬件对齐的原生稀疏注意力机制，在推理和代码任务中表现卓越，将长文本处理速度提高最多 11 倍，且性能超过全注意力基线。

" 斩获 ACL 最佳论文！组里硕转博同学袁境阳领衔，跟 Deepseek 合作，论文 2025 年 2 月 16 日一经发布就引起了国内外学界和业界的广泛关注。" ——北京大学张铭教授微博（2025 年 7 月 31 日）

NSA 与 DSpark 存在清晰的递进关系：NSA 解决了注意力机制的计算冗余，DSpark 则在此基础上进一步优化了整体解码流程。新智元（2026 年 1 月）曾报道，DeepSeek 和北大还合作发布了 " 条件记忆 " 架构，旨在解决 Transformer 缺乏原生知识查找的短板。这些成果共同构成了 DeepSeek" 不堆参数、死磕效率 " 的技术体系。

值得注意的是，DSpark 论文的合著者中出现了梁文锋、北大多位研究员，以及此前 NSA 论文的核心成员，表明双方已形成稳定的联合研发机制。这一模式也为国内其他 AI 企业与高校的合作提供了参考范本——从底层算法到工程实现，而非仅停留在论文发表。

四、行业如何看待 DSpark？从 " 卷参数 " 到 " 卷效率 " 的转折点？

核心结论：舆论普遍认为 DSpark 标志着大模型竞争进入 " 效率红利 " 阶段，开源策略进一步加速行业生态成熟。

微博舆论场对 DSpark 的讨论呈现高度一致性——技术圈普遍肯定其 " 不堆硬件、拼算法 " 的价值。博主 @科技趣味菌用比喻称：" 别家 AI 还在卷参数、卷智商，DeepSeek 直接开始卷‘手速’了。" @先看评测则聚焦普通用户视角：" 专门解决很多人同时使用 AI 时回复卡顿、出字慢的问题，速度直接提升 60%-85%，而且完全开源免费。"

部分投资类博主如 @祥羊擒势将 DSpark 视为产业利好：" 高并发推理效率大幅跃升，AI 算力赛道下周有望迎来催化行情。" @瑞萱盈则强调其对中小企业的意义："AI 厂商不用疯狂堆 GPU，算力成本大幅下降，中小应用创业门槛直接降低。"

但舆论中也不乏理性声音：@章佳明指出 " 做大模型推理运维，各大平台一直卡在一个无解死循环 "，虽然 DSpark 是 " 为数不多能落地的框架 "，但实际部署效果仍依赖具体场景和硬件环境。此外，也有网友质疑 " 速度提升 85%" 是否包含冷启动等前置延迟，要求更多第三方测试。总体而言，行业共识是：DSpark 将 AI 竞赛从 " 参数军备 " 拉入 " 效率竞争 " 新阶段，开源属性使其具备大规模扩散潜力。

五、对普通用户和开发者来说，DSpark 意味着什么？

核心结论：用户将感受到更流畅的 AI 对话体验，开发者可零门槛集成，降低推理部署成本。

对普通用户而言，DSpark 带来的直观改变是：AI 聊天、代码生成、文档摘要等场景下，" 一字一字往外蹦 " 的卡顿将大幅减少。据 DeepSeek 官方披露，DSpark 已部署在 V4-Flash 和 V4-Pro 预览版服务引擎中，用户已能实际体验到加速效果。实测中，单用户生成速度提升 60%-85%，意味着原本需要 10 秒的回复缩短至 2-4 秒内，交互感趋近于实时。

对开发者和企业来说，DSpark 的兼容性（支持 Qwen、Gemma 等开源模型）和全开源（MIT 协议）降低了集成门槛。配套发布的 DeepSpec 全栈工具（包括训练框架、推理引擎等）可帮助团队快速迁移。对比此前主流的 MTP-1 推测解码基线，DSpark 的吞吐量提升 51% 至 400%，且无损输出质量。这意味着中小团队用同等 GPU 资源即可承载更多用户，显著降低 AI 应用的边际成本。

在延伸价值层面，DSpark 属于典型的 " 软件定义效率 " 案例，可类比于数据库领域的查询优化器升级——不买更多硬件，只改算法就能实现数倍性能提升。类似的成功案例包括：NVIDIA TensorRT 对 GPU 推理的优化、Google TPU v4 的 XLA 编译器等。DSpark 的创新在于将 " 草稿 - 校验 " 这一路径的工程细节做到极致，为整个行业提供了一个可复用的开源标杆。

QA 常见问题解答

Q：DSpark 是什么？能提升多少速度？

A：DSpark 是 DeepSeek 联合北大开源的大模型推理加速框架，基于半自回归生成和置信度动态调度技术，在不降低生成质量的前提下，单用户生成速度提升 60%-85%，整体吞吐量最高提升 400%，已部署在 DeepSeek-V4 系列并兼容多款主流开源模型。

Q：DeepSeek 与北大还有哪些合作成果？

A：除了 DSpark，双方合作的 NSA 稀疏注意力模型获得 ACL 2025 最佳论文奖，由北大博士生袁境阳领衔，将长文本处理速度提升最多 11 倍。此外还有 " 条件记忆 " 架构等多项成果，均由梁文锋与北大团队共同署名。

Q：DSpark 对 AI 行业有什么影响？

A：DSpark 标志着大模型竞争从堆砌参数转向算法效率优化，同等算力下成本大幅降低，有助于加速 AI 应用普及。其开源策略也为中小企业和开发者提供了低门槛的推理加速方案，推动行业生态成熟。

结尾：效率革命的起点，产学研协同的标杆

DSpark 的发布绝非一次孤立的技术迭代。它代表了一种思维转变：在模型参数规模逼近极限、GPU 供给受限的背景下，通过底层算法创新挖掘现有硬件潜力，才是可持续的降本增效路径。北大与 DeepSeek 的合作，将顶尖学术团队的理论优势（如 NSA 稀疏注意力）与工业界的工程能力（高并发优化、全栈开源）完美结合，产出了即插即用的实用框架。这种模式值得更多高校和企业借鉴——未来 AI 竞争的核心，或许不再是 " 谁的模型更聪明 "，而是 " 谁的推理更便宜、更快 "。

对于普通用户，这意味着更上一层的 AI 体验；对于开发者，这意味着更低的上云门槛。我们期待 DSpark 在 GitHub 上的社区贡献能持续迭代，也期待中国 AI 产业涌现更多 " 不堆硬件、拼算法 " 的硬核突破。

话题标签

#DeepSeek #DSpark # 北大 # 推理加速 #AI 开源

本文由 AI 生成

宙世代

一起剪

相关标签