首轮外部融资完成仅十余日！DeepSeek联合北京大学发布论文，创始人梁文锋署名

【太平洋科技快讯】据报道，DeepSeek 完成大额融资仅十余天后 ( 详情可查看此前太平洋科技的报道内容：《DeepSeek 首轮外部融资 510 亿元落地：投后估值近 4000 亿元、多家巨头参投》 ) ，6 月 27 日，其团队联合北京大学发布论文《DSpark：Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，创始人梁文锋署名论文作者。

在 AI 行业融资阶段创始人仍深度参与技术论文撰写，属于较为少见的情况。

这次发布并非大模型版本迭代，而是在 DeepSeek-V4-Pro、DeepSeek-V4-Flash 原有基座之上新增推测解码优化模块，核心聚焦工程推理落地效率。配套开源全栈代码库 DeepSpec，覆盖数据处理、草稿模型训练、效果评估全套工具，采用 MIT 开源协议，内置 DSpark、DFlash、Eagle3 三类算法实现。

DSpark 已完成线上真实流量部署，没有停留在实验室理论方案，全面替换原有 MTP-1 基线服务，适配 DeepSeek 自有两大线上模型。实测在系统总吞吐不变前提下，DeepSeek-V4-Flash 生成速度提升 60%-85%，DeepSeek-V4-Pro 提速 57%-78%。该框架兼容性较强，已落地阿里 Qwen3 系列 4B/8B/14B、Gemma4-12B 等主流开源大模型，测试维度覆盖数学推理、代码生成、通用对话三大场景。

整套框架、配套代码库与模型权重全部开源，缺少底层算法团队的中小企业、ToB 服务商可直接复用这套推理优化方案，降低大模型私有化部署与线上服务的研发成本，加快智能体、工业代码、金融舆情等场景落地速度。

对照 Eagle3、DFlash 两类主流基线算法，DSpark 在全部测试模型与评测任务中均实现性能领先。以 Qwen3 系列为例，宏平均接受长度相较 Eagle3 提升最高 30.9%，相较 DFlash 提升最高 18.4%，该性能优势可泛化至 Gemma4-12B 等外部模型。实验同时显现明显领域差异：数学、代码等结构化任务草稿接受长度更高，开放式对话场景接受长度偏低。

论文也客观指出方案现存局限，针对可预测性差、草稿接受率低的复杂查询，前置草稿算力无法回收；后续计划增加草稿模型难度感知早退出机制，跳过无效完整块生成流程。

行业现有推测解码路线各有短板：自回归类方案串行生成草稿，接受率高但长块生成耗时高；并行草稿单次前向传播即可输出完整块，吞吐上限更高，但存在token依赖缺失、序列后半段准确率下滑、最优验证长度难以判定两大瓶颈。

DSpark 针对性推出两套核心优化机制：一是半自回归生成架构，保留并行高吞吐优势，搭配轻量串行模块补充序列依赖；二是置信度调度验证机制，新增置信度头预判 token 有效概率，结合硬件调度动态调整验证长度，并通过时序温度缩放校准置信偏差。仅两层 Transformer 结构的 DSpark，综合表现优于五层网络的 DFlash。

不同于行业一味扩大模型参数的路线，DeepSeek 在大额融资后侧重推理效率优化。当下生成式 AI 商业化进程中，推理速度、算力成本控制，正逐步替代单纯基准跑分，成为企业核心竞争优势。

宙世代

一起剪

相关标签