太平洋电脑网 16小时前
首轮外部融资完成仅十余日!DeepSeek联合北京大学发布论文,创始人梁文锋署名
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【太平洋科技快讯】据报道,DeepSeek 完成大额融资仅十余天后 ( 详情可查看此前太平洋科技的报道内容:《DeepSeek 首轮外部融资 510 亿元落地:投后估值近 4000 亿元、多家巨头参投》 ) ,6 月 27 日 ,其团队联合北京大学发布论文《DSpark:Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,创始人梁文锋署名论文作者。

在 AI 行业融资阶段创始人仍深度参与技术论文撰写,属于较为少见的情况。

这次发布并非大模型版本迭代,而是在 DeepSeek-V4-Pro、DeepSeek-V4-Flash 原有基座之上新增推测解码优化模块,核心聚焦工程推理落地效率。配套开源全栈代码库 DeepSpec,覆盖数据处理、草稿模型训练、效果评估全套工具,采用 MIT 开源协议,内置 DSpark、DFlash、Eagle3 三类算法实现。

DSpark 已完成线上真实流量部署,没有停留在实验室理论方案,全面替换原有 MTP-1 基线服务,适配 DeepSeek 自有两大线上模型。实测在系统总吞吐不变前提下,DeepSeek-V4-Flash 生成速度提升 60%-85%,DeepSeek-V4-Pro 提速 57%-78%。该框架兼容性较强,已落地阿里 Qwen3 系列 4B/8B/14B、Gemma4-12B 等主流开源大模型,测试维度覆盖数学推理、代码生成、通用对话三大场景。

整套框架、配套代码库与模型权重全部开源,缺少底层算法团队的中小企业、ToB 服务商可直接复用这套推理优化方案,降低大模型私有化部署与线上服务的研发成本,加快智能体、工业代码、金融舆情等场景落地速度。

对照 Eagle3、DFlash 两类主流基线算法,DSpark 在全部测试模型与评测任务中均实现性能领先。以 Qwen3 系列为例,宏平均接受长度相较 Eagle3 提升最高 30.9%,相较 DFlash 提升最高 18.4%,该性能优势可泛化至 Gemma4-12B 等外部模型。实验同时显现明显领域差异:数学、代码等结构化任务草稿接受长度更高,开放式对话场景接受长度偏低。

论文也客观指出方案现存局限,针对可预测性差、草稿接受率低的复杂查询,前置草稿算力无法回收;后续计划增加草稿模型难度感知早退出机制,跳过无效完整块生成流程。

行业现有推测解码路线各有短板:自回归类方案串行生成草稿,接受率高但长块生成耗时高;并行草稿单次前向传播即可输出完整块,吞吐上限更高,但存在token依赖缺失、序列后半段准确率下滑、最优验证长度难以判定两大瓶颈。

DSpark 针对性推出两套核心优化机制:一是半自回归生成架构,保留并行高吞吐优势,搭配轻量串行模块补充序列依赖;二是置信度调度验证机制,新增置信度头预判 token 有效概率,结合硬件调度动态调整验证长度,并通过时序温度缩放校准置信偏差。仅两层 Transformer 结构的 DSpark,综合表现优于五层网络的 DFlash。

不同于行业一味扩大模型参数的路线,DeepSeek 在大额融资后侧重推理效率优化。当下生成式 AI 商业化进程中,推理速度、算力成本控制,正逐步替代单纯基准跑分,成为企业核心竞争优势。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

北京大学 融资 创始人 开源 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论