钛媒体 App 6 月 27 日消息,DeepSeek 联合北京大学正式发布 DSpark 推理加速框架,旨在解决大语言模型在高并发生产环境中的推理效率瓶颈。该框架已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中,相比此前生产环境采用的单 token 推测解码基线 MTP-1,在同等吞吐量水平下可将单用户生成速度提升 60% 至 85%。相关论文、训练代码及模型检查点已在 GitHub 平台 DeepSpec 项目中开源。

钛媒体 App 6 月 27 日消息,DeepSeek 联合北京大学正式发布 DSpark 推理加速框架,旨在解决大语言模型在高并发生产环境中的推理效率瓶颈。该框架已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中,相比此前生产环境采用的单 token 推测解码基线 MTP-1,在同等吞吐量水平下可将单用户生成速度提升 60% 至 85%。相关论文、训练代码及模型检查点已在 GitHub 平台 DeepSpec 项目中开源。
登录后才可以发布评论哦
打开小程序可以发布评论哦