DSpark 推理加速框架已明确适配通义千问(Qwen3 系列)和 Google 的 Gemma 系列这两大主流开源大模型,并展现出优异的迁移性能。
一、DSpark 适配的开源大模型清单
通义千问(Qwen3 系列):包括 Qwen3-4B、Qwen3-8B、Qwen3-14B 等不同参数规格的模型
Google Gemma 系列:在 DeepSpec 开源框架中作为目标模型系列获得原生支持
适配验证的关键数据
测试模型
平均接受长度提升(对比 Eagle3)
平均接受长度提升(对比 DFlash)
Qwen3-4B26.7%16.3%
Qwen3-8B30.9%18.4%
Qwen3-14B28.5%17.2%
根据技术报告,DSpark 在 Qwen3 系列上的单轮可接受词元长度改进显著,验证了其跨模型迁移能力。
二、DSpark 的跨模型适配原理
1. 非专属优化方案
DSpark 并非 DeepSeek 模型的专属优化方案,而是一套通用推理加速框架。其底层采用半自回归生成架构与置信度动态调度机制,不依赖特定模型的内部结构。
2. 核心技术机制
半自回归生成架构:保留并行草稿模型的高吞吐优势,加入轻量串行模块对块内 token 依赖关系进行建模
置信度调度验证:引入置信度头评估每个 Token 存活概率,动态决定最优验证长度
硬件感知前缀调度:根据 GPU 显存与负载动态调整核验长度,最大化硬件利用效率
3. 开源训练框架 DeepSpec
随 DSpark 一同开源的 DeepSpec 全栈代码库,提供了训练与评估推测解码草稿模型的标准化工具链。该框架支持多种草稿模型算法(DSpark、DFlash、Eagle3),并已内置对 Qwen3 和 Gemma 系列目标模型的原生支持。
三、实际部署验证
DSpark 已在 DeepSeek-V4 真实线上流量中完成部署验证,同时团队在通义千问和 Gemma 等主流开源模型上完成测试,优化效果具备通用性。测试涵盖数学推理、代码生成、日常对话等多个领域,输出分布与原始模型完全一致,无损保障生成质量。

四、开源与生态影响
DSpark 采用 MIT 协议完全开源,旨在降低整个行业的大模型推理成本。通过 DeepSpec 工具库,开发者可以在成熟框架上为自己选用的开源大模型训练定制草稿模型,跳过大量重复的基础设施搭建工作。这一开放策略使得通义千问、智谱等国内主流模型均可接入 DSpark 加速,推动中文大模型社区共享推理优化成果。

本文由 AI 生成


登录后才可以发布评论哦
打开小程序可以发布评论哦