新浪财经 昨天
DeepSeek 给大模型装上「涡轮增压」:速度暴涨 85%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

(来源:AI 信息 Gap)

模型还是那个模型,但 token 生成速度直接提升了 60% 到 85%。

6 月 27 日,北大和 DeepSeek 联合发布 DSpark,一套推理加速框架。你可以简单理解为给大模型装了一个「涡轮增压」。引擎没换,马力拉满。

论文、训练代码、模型权重全部开源,MIT 协议。

目前 DSpark 已经部署到 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 预览版的线上服务了。如果你最近觉得 DeepSeek 回复变快了,这不是错觉。

大模型生成文字,是一个字一个字往外蹦的。每生成一个字,完整的大模型都要从头计算一遍。回复 100 个字,就要算 100 次。

这是所有大模型回复慢的根本原因。

业内主流的加速方案叫「推测解码」。找一个很小很快的「草稿模型」,让它先猜一串字符。然后大模型一次性检查这串字符对不对。猜对的直接用,猜错的重来。

大模型一次性「检查 7 个字」花的时间,和「生成 1 个字」几乎一样多。

所以只要草稿模型猜得够准,一轮就能确认好几个字,速度直接就上去了。而且最终输出和大模型自己逐字生成的结果完全一致。质量零损耗。

这就是推测解码,给大模型安装涡轮增压的基本原理。

主流的并行草稿模型(比如 DFlash)一次能猜好几个字。但这几个字之间互相不知道对方猜了什么。

比如正确答案是「of course」,并行模型可能同时猜出「of」和「no」,拼成了「of no」。它猜第二个词的时候,不知道第一个词已经猜了「of」。

越往后,偏差越大。

但问题不只是猜不准。大模型验证也需要占用 GPU 资源。系统空闲的时候无所谓,但高并发的时候,每验证一个大概率错误的 token,都在抢夺其他计算资源。

所以,首先要「猜得更准」。

DSpark 采用了一个「半自回归」架构。先用一个并行骨架网络一次性生成所有草稿 token 的初始预测。然后在上面叠加一个极轻量的序列模块,让后面的 token 能看到前面 token 猜了什么。

先集体猜,再逐个修正。

一个只有 2 层的 DSpark,准确度直接超过了 5 层的 DFlash。层数少了一半多 , 而且这个修正模块带来的额外延迟只有 0.2% 到 1.3%,几乎可以忽略。

其次还要「验证得更聪明。」

DSpark 不再无差别验证所有草稿 token。它训练了一个置信度打分模块,给每个草稿 token 打一个「大模型会不会接受」的概率分数。

然后根据当前系统负载,动态决定验证多少个。

GPU 闲的时候多确认几个字。GPU 忙的时候只验证最有把握的那几个,把计算资源留给其他用户。

和之前生产环境用的 MTP-1 方案(每次只推测 1 个 token)相比,同等吞吐量条件下,DeepSeek-V4-Flash 单用户生成速度提升了 60% 到 85%,DeepSeek-V4-Pro 提升了 57% 到 78%。

在极端高并发场景下,整体吞吐量提升甚至超过了 400%。

离线测试中,DSpark 在数学、代码、对话三个领域全面超过了 Eagle3 和 DFlash 两种此前最强的推测解码方案。以 Qwen3-4B 为例,DSpark 每轮验证通过的 token 数比 Eagle3 多 30.9%,比 DFlash 多 16.3%。

不只是 DeepSeek 自家模型。Qwen3 和 Gemma4 两个系列的四款模型,DSpark 同样是效果最好的方案。

推理成本,正在压垮越来越多的 AI 公司。

同一周,AI Agent 创业公司 Lindy 宣布 100% 从 Anthropic 切换到 DeepSeek-V4。CEO 原话,「这关乎公司生存。」25 个人的团队,AI 推理成本比全公司人员薪资还高。

第三方企业支出数据显示,DeepSeek 登顶了 6 月增长最快的 AI 软件供应商。这份排名覆盖了超过 5 万家企业的真实支出。

DSpark 不需要训练新模型,不需要更换硬件,在同样的 GPU 上就能把模型提速 60% 到 85%。

这套涡轮增压的全部代码和模型权重(DeepSpec 仓库),全部开源,MIT 协议。

DeepSpec GitHub 代码库:https://github.com/deepseek-ai/DeepSpec

DSpark 论文地址:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DeepSeek-V4-Pro-DSpark 抱抱脸链接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gap ai 涡轮增压 mit 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论