智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 心缘
DeepSeek 离下一代架构,又近了一步!
智东西 9 月 30 日报道,昨日,DeepSeek 宣布开源 DeepSeek-V3.2-Exp 实验版模型。该模型首次引入了 DeepSeek Sparse Attention 稀疏注意力机制,并在几乎不影响模型输出效果的前提下,大幅度提升了长文本训练和推理效率,被 DeepSeek 定义为 " 迈向新一代架构的中间步骤 "。
这一改进还降低了 DeepSeek 新模型的服务成本,DeepSeek 因此执行了新的价格政策,让开发者调用 DeepSeek API 的成本降低 50% 以上。
降价幅度最大的为输出 token 的价格:DeepSeek-V3.2-Exp 模型输出 100 万个 token 的价格仅为 3 元,为 DeepSeek-V3.1 系列模型的 1/4。
截至 9 月 30 日上午 6 点,华为云、PPIO 派欧云、优刻得等云平台已宣布上线 DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等 AI 芯片厂商已经宣布适配 DeepSeek-V3.2-Exp。
DeepSeek-V3.2-Exp 是在 DeepSeek-V3.1-Terminus 的基础上打造的。在各领域的公开评测集上,两款模型的表现基本一致,不过,DeepSeek-V3.2-Exp 完成任务使用的 token 量大幅度减少。
目前,DeepSeek App、网页端与小程序均已同步上线了 DeepSeek-V3.2-Exp 模型。DeepSeek 也临时保留了 DeepSeek-V3.1-Terminus 的 API 接口,方便开发者进行对比验证。
除模型本体外,DeepSeek 还开源了相关技术报告及代码,并提供 TileLang 与 CUDA 双版本 GPU 算子,以便研究者在不同层级进行实验和优化。
技术报告地址:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek 还补充道,作为一个实验性的版本,DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试,以排除在某些场景下效果欠佳的可能。
一、华为、海光、寒武纪光速适配,网友直呼第二个 DeepSeek 时刻要来了
DeepSeek-V3.2-Exp 一经推出,便在产业界与开发者圈子里引发热烈反响,不少国内企业纷纷第一时间宣布完成 DeepSeek-V3.2-Exp 的适配和上线。
华为计算公众号发文宣布,昇腾已快速基于 vLLM/SGLang 等推理框架完成适配部署,实现 DeepSeek-V3.2-Exp Day 0(第零天)支持,并面向开发者开源所有推理代码和算子实现。DeepSeek-V3.2-Exp 在昇腾设备上 128K 长序列输出,能够保持 TTFT(首 token 输出耗时)低于 2 秒、TPOT(每 token 输出耗时)低于 30 毫秒的推理生成速度。
华为云则首发上线了 DeepSeek-V3.2-Exp,还使用 CloudMatrix 384 超节点为该模型提供推理服务。
在 DeepSeek 发文宣布 DeepSeek-V3.2-Exp 模型开源后的 4 分钟,寒武纪也发文称其已同步实现对该模型的 Day 0 适配,并开源大模型推理引擎 vLLM-MLU 源代码。
寒武纪通过 Triton 算子开发实现了快速适配,利用 BangC 融合算子开发实现了性能优化,并基于计算与通信的并行策略,达成了较高的计算效率水平。
DeepSeek-V3.2-Exp 模型的尺寸达 671GB,仅下载就可能需要数小时。这种时隔 4 分钟的 Day 0 适配,或许意味着寒武纪和 DeepSeek 两家企业在模型发布前就已经启动适配工作。
据经济观察网报道,海光信息的 DCU(深度计算处理器)率先实现了对 DeepSeek-V3.2-Exp 的 Day 0 级高效适配与优化,确保大模型算力 " 零等待 " 部署。
在 DeepSeek 官宣 DeepSeek-V3.2-Exp 开源的推文中,有不少网友分享了对模型的使用体验和感受。有位网友称,自己在 10 万个 token 的代码库上测试了 DeepSeek-V3.2-Exp,速度提升非常明显。
有网友感叹,DeepSeek API 现在几乎等同于免费了。
更有网友认为,这一模型的推出,或许意味着第二个 DeepSeek 时刻即将到来。
Hugging Face 上,DeepSeek-V3.2-Exp 的社区板块也有不少讨论,不过,关注度最高的一条帖子,是来自中国网友的 " 吐槽 ":" 咱这个模型是非得国庆前更新吗?"
还有网友列出了 DeepSeek 每次更新模型的时间,几乎都卡在节假日的前几天。
二、一手体验 DeepSeek-V3.2-Exp,架构创新或许比性能提升更重要
DeepSeek-V3.2-Exp 在使用体验上,究竟与此前的 DeepSeek-V3.1-Terminus 有何不同?
在编程方面,DeepSeek-V3.2-Exp 撰写的代码明显更为简短了,相同的任务下,其输出的代码行数要少于 DeepSeek-V3.1-Terminus。
不过,这在某种程度上也影响了模型的性能。DeepSeek-V3.2-Exp 编写的小球弹跳动画代码未能正常运行,小球直接飞出了六边形的范围。DeepSeek-V3.1-Terminus 在智东西此前的测试中完美地完成了这一任务。
智东西还让 DeepSeek-V3.2-Exp 完成了一项信息检索任务,要求它推荐几种适合新手在阳台盆栽的、生长快、果子能直接生吃的植物,并且要保证对小孩绝对安全,最好能附上简单的播种技巧。
与 DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成结果更为简短,用词也比较 " 朴素 "。并且,DeepSeek-V3.2-Exp 推荐的无花果、百香果等植物,需要进行扦插、高频率养护等操作,并不符合提示词要求的新手友好。
▲ DeepSeek-V3.1-Terminus(左)与 DeepSeek-V3.2-Exp(右)在信息检索任务上的表现(图源:智东西)
总体而言,DeepSeek-V3.2-Exp 确实在推理效率上实现提升,但却在能力上做出了一定的让步。
知乎博主 @toyama nao 也在测评中发现了类似的问题。他认为,DeepSeek-V3.2-Exp 在工作记忆、计算精度稳定性等方面存在明显短板,还容易有偷懒倾向和陷入死循环的可能。
▲知乎博主 @toyama nao 对 DeepSeek-V3.2-Exp 的评价
这也得到了其他网友观点的印证,例如,这位网友便在 x 平台发帖称,并没在这款模型上看到改进,并提出质疑:我们为什么要使用能力降级的模型呢?
作为一款实验模型,DeepSeek-V3.2-Exp 更大的贡献或许在于理论层面。DeepSeek 称,与 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2-Exp 在架构上的唯一修改,就是通过继续训练引入了 DeepSeek Sparse Attention。
目前的 DSA 机制还处在原型期,主要由两个组件构成:一个 Lightning Indexer(闪电索引器)和一个细粒度的 token 选择机制。
▲ DeepSeek-V3.2-Exp 架构图
Lightning Indexer 能够快速评估查询 token 与历史 token 的相关性,从选择机制只挑选最相关的一部分上下文进入注意力计算,这让复杂度从传统的二次方降到了近似线性水平,大幅降低了训练和推理的成本。
在训练上,DeepSeek-V3.2-Exp 采用了 " 继续预训练 + 后训练 " 的方式。继续预训练分为两个阶段:首先在稠密模式下短暂训练 indexer,让它的输出和标准注意力保持一致;随后引入稀疏选择机制,逐渐让模型适应新的计算方式。
完成预训练后,DeepSeek-V3.2-Exp 又通过专家蒸馏和混合强化学习进行后训练。专家蒸馏的思路是针对数学、编程、推理等不同领域训练专门的专家模型,然后将这些模型的知识压缩进通用模型。
混合强化学习则将推理、智能体能力和人类对齐训练统一在一个 RL 阶段中,避免了传统多阶段方法容易出现的遗忘问题。
技术报告显示,DeepSeek-V3.2-Exp 在大多数评测任务上的表现与前代基本持平,个别推理相关的测试分数略有下降,但主要原因是生成的推理 token 更少,如果使用中间检查点,差距则会缩小。
相比之下,效率的提升尤为显著。在 H800 GPU 的测试环境中,长序列推理的开销明显降低,证明 DSA 在真实部署中有很强的实用性。
同时,训练曲线与前代模型保持相似的稳定性,也表明这种架构在收敛性上并没有额外风险。
结语:DeepSeek 迈向新一代架构
正如其名字内的 Exp(实验版)所言,DeepSeek-V3.2-Exp 的推出,本身并不是一次性能爆表的升级,而更像是一场架构实验,展示了一种在长文本处理中兼顾性能和效率的新路径。
作为技术原型,DeepSeek-V3.2-Exp 背后的 DSA 机制或许很快就会得到进一步完善。随着相关技术的持续优化和更多企业、研究者参与验证,DeepSeek 有望在不久的未来交出更令人惊喜的成果。
登录后才可以发布评论哦
打开小程序可以发布评论哦