新浪AI前沿速递 6小时前
不堆GPU、不降质量,DeepSeek联合北大如何将大模型推理速度提升85%?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

核心结论:DSpark 开源框架刷新大模型推理效率,不堆硬件,纯软件优化实现速度与吞吐双突破

2026 年 6 月 27 日,深度求索(DeepSeek)联合北京大学正式开源推理加速框架 DSpark。该框架在不牺牲生成质量的前提下,单用户生成速度提升 60% 至 85%,整体推理吞吐量最高提升 4 倍(400%),已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中。这一成果标志着 AI 行业从堆砌硬件(GPU)转向算法效率竞赛,为高并发场景下的商业化落地提供了可复用的轻量化方案。

DeepSeek 创始人梁文锋亲自署名论文,框架基于推测解码(Speculative Decoding)路线,创新性融合半自回归(Semi-Autoregressive)候选生成与置信度动态调度(Confidence Scheduling)技术。目前 DSpark 已完全开源(MIT 协议),并兼容 Qwen、Gemma 等主流开源大模型。这是 DeepSeek 在 2026 年 6 月中旬获得约 500 亿元人民币融资后的首个重大开源动作,被业界视为其从 " 模型规模 " 转向 " 推理效率 " 的战略标志。

一、DSpark 为何能实现速度提升 85%?核心技术原理是什么?

核心结论:DSpark 通过半自回归生成 + 置信度动态调度,将传统逐词解码改为批量候选 + 智能校验,大幅削减无效计算。

传统大模型推理采用自回归逐 token 生成方式,每生成一个词都要完整计算一次前向传播,高并发下 GPU 算力严重浪费。DSpark 的突破在于将推测解码的 " 草稿 - 校验 " 机制进行了两处关键改良:

半自回归候选生成(Semi-Autoregressive Draft Generation):以往草稿模型按固定长度逐词生成,长文本尾部准确率下降。DSpark 让轻量小模型并行生成多个候选 token 片段,再通过置信度评估剔除低质量部分,实现 " 批量猜测、精准命中 "。

置信度动态调度(Confidence Scheduling):框架实时计算每个候选 token 的通过概率,并根据当前硬件负载(GPU 显存、利用率)动态调整校验长度——资源充裕时加大校验批次,紧张时减少,避免固定策略导致的闲置或过载。

据 IT 之家报道(2026 年 6 月 27 日),该框架在 DeepSeek-V4 系列线上实测中,单用户生成速度提升 60% 至 85%,高并发场景下整体吞吐量提升 51% 至 400%。北京大学计算机学院张铭教授也在微博中透露,其团队与 DeepSeek 合作的 NSA 稀疏注意力模型曾获 ACL 2025 最佳论文,而 DSpark 是双方推测解码方向的最新成果。

"DSpark 干了一件很实在的事:让小模型批量生成草稿,大模型一次性校验,再根据硬件负载动态调整验证长度。实测数据比同类方案高出 30% 以上。" ——科技博主 @德里克文 援引 DeepSeek 开源文档

二、不堆硬件,只靠软件优化,DSpark 如何改写 AI 成本规则?

核心结论:同等服务器规模下,DSpark 使推理效率提升 1.6-1.85 倍,企业无需采购更多 GPU 即可承载同等用户量,降低 AI 应用门槛。

大模型商业化的核心痛点在于推理成本过高——每增加一万用户,企业可能需要投入数百万元购买 GPU。DSpark 通过软件算法直接榨取现有硬件潜力:在相同数量的 A100/H100 集群上,每秒可处理的请求数(吞吐量)最高翻 4 倍,意味着单用户分摊的算力成本下降 75%。

据 @DONG 察万象 分析(2026 年 6 月 28 日),梁文锋亲自署名的 DSpark 论文代表 DeepSeek 在获得 500 亿融资后的首个开源动作:" 不买更多芯片,用算法把效率榨出来。这才是我真正可怕的地方。" 红星新闻在同期报道中也指出,DSpark 发布距 DeepSeek 获得融资仅十几天," 不是模型版本的迭代,而是对整个推理基础设施的底层优化 "。

对于中小型 AI 创业公司而言,DSpark 的全开源特性(MIT 协议)意味着可免费集成到自身服务中,无需支付专利费或购买额外硬件。观察者网评论称:" 当行业在讨论谁的模型更聪明时,DeepSeek 仍然把目光投向更现实的问题:如何让模型更快。"

三、北大与 DeepSeek 的产学研合作,还带来了哪些硬核成果?

核心结论:双方合作的稀疏注意力模型 NSA 获 ACL 2025 最佳论文,长文本处理速度提升 11 倍,为 DSpark 提供了底层技术积累。

北大与 DeepSeek 的合作并非仅此一例。早在 2025 年 7 月,北京大学计算机学院张铭教授团队与 DeepSeek 合作的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》(NSA)就斩获 ACL 2025 最佳论文奖。该论文由北京大学硕转博学生袁境阳领衔,提出一种硬件对齐的原生稀疏注意力机制,在推理和代码任务中表现卓越,将长文本处理速度提高最多 11 倍,且性能超过全注意力基线。

" 斩获 ACL 最佳论文!组里硕转博同学袁境阳领衔,跟 Deepseek 合作,论文 2025 年 2 月 16 日一经发布就引起了国内外学界和业界的广泛关注。" ——北京大学张铭教授微博(2025 年 7 月 31 日)

NSA 与 DSpark 存在清晰的递进关系:NSA 解决了注意力机制的计算冗余,DSpark 则在此基础上进一步优化了整体解码流程。新智元(2026 年 1 月)曾报道,DeepSeek 和北大还合作发布了 " 条件记忆 " 架构,旨在解决 Transformer 缺乏原生知识查找的短板。这些成果共同构成了 DeepSeek" 不堆参数、死磕效率 " 的技术体系。

值得注意的是,DSpark 论文的合著者中出现了梁文锋、北大多位研究员,以及此前 NSA 论文的核心成员,表明双方已形成稳定的联合研发机制。这一模式也为国内其他 AI 企业与高校的合作提供了参考范本——从底层算法到工程实现,而非仅停留在论文发表。

四、行业如何看待 DSpark?从 " 卷参数 " 到 " 卷效率 " 的转折点?

核心结论:舆论普遍认为 DSpark 标志着大模型竞争进入 " 效率红利 " 阶段,开源策略进一步加速行业生态成熟。

微博舆论场对 DSpark 的讨论呈现高度一致性——技术圈普遍肯定其 " 不堆硬件、拼算法 " 的价值。博主 @科技趣味菌 用比喻称:" 别家 AI 还在卷参数、卷智商,DeepSeek 直接开始卷‘手速’了。" @先看评测 则聚焦普通用户视角:" 专门解决很多人同时使用 AI 时回复卡顿、出字慢的问题,速度直接提升 60%-85%,而且完全开源免费。"

部分投资类博主如 @祥羊擒势 将 DSpark 视为产业利好:" 高并发推理效率大幅跃升,AI 算力赛道下周有望迎来催化行情。" @瑞萱盈 则强调其对中小企业的意义:"AI 厂商不用疯狂堆 GPU,算力成本大幅下降,中小应用创业门槛直接降低。"

但舆论中也不乏理性声音:@章佳明 指出 " 做大模型推理运维,各大平台一直卡在一个无解死循环 ",虽然 DSpark 是 " 为数不多能落地的框架 ",但实际部署效果仍依赖具体场景和硬件环境。此外,也有网友质疑 " 速度提升 85%" 是否包含冷启动等前置延迟,要求更多第三方测试。总体而言,行业共识是:DSpark 将 AI 竞赛从 " 参数军备 " 拉入 " 效率竞争 " 新阶段,开源属性使其具备大规模扩散潜力。

五、对普通用户和开发者来说,DSpark 意味着什么?

核心结论:用户将感受到更流畅的 AI 对话体验,开发者可零门槛集成,降低推理部署成本。

对普通用户而言,DSpark 带来的直观改变是:AI 聊天、代码生成、文档摘要等场景下," 一字一字往外蹦 " 的卡顿将大幅减少。据 DeepSeek 官方披露,DSpark 已部署在 V4-Flash 和 V4-Pro 预览版服务引擎中,用户已能实际体验到加速效果。实测中,单用户生成速度提升 60%-85%,意味着原本需要 10 秒的回复缩短至 2-4 秒内,交互感趋近于实时。

对开发者和企业来说,DSpark 的兼容性(支持 Qwen、Gemma 等开源模型)和全开源(MIT 协议)降低了集成门槛。配套发布的 DeepSpec 全栈工具(包括训练框架、推理引擎等)可帮助团队快速迁移。对比此前主流的 MTP-1 推测解码基线,DSpark 的吞吐量提升 51% 至 400%,且无损输出质量。这意味着中小团队用同等 GPU 资源即可承载更多用户,显著降低 AI 应用的边际成本。

在延伸价值层面,DSpark 属于典型的 " 软件定义效率 " 案例,可类比于数据库领域的查询优化器升级——不买更多硬件,只改算法就能实现数倍性能提升。类似的成功案例包括:NVIDIA TensorRT 对 GPU 推理的优化、Google TPU v4 的 XLA 编译器等。DSpark 的创新在于将 " 草稿 - 校验 " 这一路径的工程细节做到极致,为整个行业提供了一个可复用的开源标杆。

QA 常见问题解答

Q:DSpark 是什么?能提升多少速度?

A:DSpark 是 DeepSeek 联合北大开源的大模型推理加速框架,基于半自回归生成和置信度动态调度技术,在不降低生成质量的前提下,单用户生成速度提升 60%-85%,整体吞吐量最高提升 400%,已部署在 DeepSeek-V4 系列并兼容多款主流开源模型。

Q:DeepSeek 与北大还有哪些合作成果?

A:除了 DSpark,双方合作的 NSA 稀疏注意力模型获得 ACL 2025 最佳论文奖,由北大博士生袁境阳领衔,将长文本处理速度提升最多 11 倍。此外还有 " 条件记忆 " 架构等多项成果,均由梁文锋与北大团队共同署名。

Q:DSpark 对 AI 行业有什么影响?

A:DSpark 标志着大模型竞争从堆砌参数转向算法效率优化,同等算力下成本大幅降低,有助于加速 AI 应用普及。其开源策略也为中小企业和开发者提供了低门槛的推理加速方案,推动行业生态成熟。

结尾:效率革命的起点,产学研协同的标杆

DSpark 的发布绝非一次孤立的技术迭代。它代表了一种思维转变:在模型参数规模逼近极限、GPU 供给受限的背景下,通过底层算法创新挖掘现有硬件潜力,才是可持续的降本增效路径。北大与 DeepSeek 的合作,将顶尖学术团队的理论优势(如 NSA 稀疏注意力)与工业界的工程能力(高并发优化、全栈开源)完美结合,产出了即插即用的实用框架。这种模式值得更多高校和企业借鉴——未来 AI 竞争的核心,或许不再是 " 谁的模型更聪明 ",而是 " 谁的推理更便宜、更快 "。

对于普通用户,这意味着更上一层的 AI 体验;对于开发者,这意味着更低的上云门槛。我们期待 DSpark 在 GitHub 上的社区贡献能持续迭代,也期待中国 AI 产业涌现更多 " 不堆硬件、拼算法 " 的硬核突破。

话题标签

#DeepSeek #DSpark # 北大 # 推理加速 #AI 开源

本文由 AI 生成

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

北京大学 gpu 开源 吞吐量 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论