梁文锋署名论文！DeepSeek首轮融资后大动作：生成速度大涨85%

作者 | 李水青

编辑 | 心缘

智东西 6 月 27 日报道，继完成 500 亿元融资后，今日，DeepSeek 首次放出开源新成果！

刚刚，DeepSeek 开源了一套让现有模型跑得更快的工程方案：推出 DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark 模型，并开源推测解码（Speculative Decoding）框架 DSpark 以及推测解码训练框架 DeepSpec。

▲ DeepSeek-V4-Pro-DSpark 开源上新页面截图

根据同步上传的梁文锋署名、联合北京大学完成的论文《DSpark：基于半自回归生成的置信度调度推测解码（DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation）》，将 DSpark 部署在 DeepSeek-V4 线上服务系统、承接真实用户流量时，它有效减少了无效校验带来的算力浪费。

相较于成熟的生产基线方案（MTP-1），在保持整体吞吐不变的前提下，DSpark 把单用户生成速度提升 60%-85%。更关键的是，在严格交互时延约束下，DSpark 避免了吞吐率大幅滑坡，实现了以往无法达成的性能档位，推高了整套服务系统的帕累托最优边界。

▲ DSpark 论文截图

Hugging Face 地址：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

GitHub 地址：

https://github.com/deepseek-ai/DeepSpec

论文地址：

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

根据 Hugging Face 上的模型卡，DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 并非新模型，而是在原有版本的基础上，增加了一个推测解码模块，用以加快推理速度、降低成本。

推测解码，简单来说，是一种大模型推理无损技术，核心流程为先打草稿、后验证。其将草稿生成与目标模型校验解耦，以此加速大语言模型推理。

当前主流并行草稿器能够单次前向运算生成超长 token 序列，但由于 token 之间缺少依赖关系，草稿后续内容的通过率会快速下滑。此外，如果对整段长候选序列无差别校验，会把宝贵的批次算力浪费在极易被驳回的 token 上，从而导致高并发服务场景下整体吞吐率大幅下降。

为此，DeepSeek 提出 DSpark 推测解码框架，把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。为保证草稿质量，DSpark 采用半自回归架构：将并行主干网络与轻量串行模块相结合，建模块内 token 依赖，缓解末尾内容通过率衰减问题。

▲ DSpark 架构与解码流程

为优化系统运行效率，DSpark 引入置信度调度校验机制：根据预估的前缀通过概率与引擎吞吐特征，为每一条请求动态调整校验长度。在多领域离线基准测试中，相比当前最优的自回归草稿器与并行草稿器，DSpark 能够显著提升有效通过序列长度。

如下图所示，针对这 DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 两款模型，DeepSeek 提供了一个最小推理示例。

▲ DeepSeek 提供的最小推理示例

总的来说，用户在部署 DSpark 版本的 DeepSeek-V4 模型后，有望在生成速度、首 token 延迟、并发能力等方面获得体验提升。

再来看看 DeepSpec，这是一个用于训练和评估推测性解码草稿模型（Draft Model）的全栈代码库，或者说工具链，它包含数据准备工具、草稿模型实现、训练代码和评估脚本，支持 MIT 许可。

▲ DeepSpec 开源上新页面截图

DeepSpec 的工作流程如下，它会按顺序运行各个阶段，每个阶段的输出为下一个阶段提供反馈 :

1、数据准备：下载提示，重新生成目标答案，并构建目标缓存。

2、训练：针对缓存的目标输出训练一个模型。

3、评估：在基准任务上衡量推测解码的接受程度。

目前，DeepSpec 支持的算法包括三个草稿模型：DSpark、DFlash 和 Eagle3。

DeepSpec 团队还在最后向 SpecForge（Apache-2.0）、DFlash（MIT）以及 Qwen3 和 Gemma 发文致谢。

▲ DeepSeek 致谢情况

可以看到，DeepSeek 不仅发布相关模型，还开放完整的训练框架，供开发者和企业用这套工具给自己的 Qwen3、Gemma 等模型训练草稿模型。

结语：推理重要度提高，考验工程化能力

DeepSeek 本次发布虽然低调，也不是新模型迭代，但实际含金量不低。DeepSeek 发布了一套让现有模型跑得更快的工程方案，有望带来更快更低成本的推理体验，并降低推测解码的落地门槛。

大模型竞赛已进入训练与推理并重的系统博弈阶段。本次也是 DeepSeek 完成融资后，率先落子推理优化赛道。战略意图也很明确：不仅要加速模型迭代和产品化，还要向下抢占算力效率竞争制高点。

宙世代

一起剪

相关标签