DeepSeek V4报告太详尽了！484天换代之路全公开

DeepSeek V4" 迟到 " 半年，但发布后的好评如潮还在如潮。

中外热搜上了一整圈，科技媒体的版面今天都让给了它，OpenAI 也成了它的陪衬。

大家惊叹于 DeepSeek 在有限条件下作出重大突破的创造力，也佩服其在 2026 年，还能坚定选择开源路线的决心。

可以说，一时间信息多的有些超载，但多归多，主线就两条。

第一条，百万 token 上下文全面开源，KV cache 大幅缩减。

V4-Pro 和 V4-Flash，1.6 万亿参数 /2840 亿参数，上下文都是 1M。1M 场景下，V4-Pro 的单 token FLOPs 只有 V3.2 的 27%，KV cache 只有 10%。

亚马逊硬件师 GPD 表示，这意味着 DeepSeek 可能解决当前的 HBM 短缺问题。

第二条，国产芯片适配，已经支持华为算力，预计下半年昇腾 950 超节点批量上市。

此外，大家最关心的，还莫过于在过去四个月中，DeepSeek 陆续放出了几篇「可能进 V4」的论文，今天技术报告开源了，可以对一下账。

mHC（流形约束超连接）：2025 年 12 月 31 日上传 arXiv，梁文锋挂名。进了 V4。

Engram（条件记忆模块）：1 月 DeepSeek 联合北大发布。没进 V4，但在未来方向里被点名，留给 V5。

DualPipe：V3 老伙计。继续用，针对 mHC 做了调整。

Muon 优化器：从 Kimi 那边借的。V4 把 AdamW 替了，接管绝大多数参数的训练。

四个预期，三个落地，一个给下一代。

整体架构

V4 这一代，是 DeepSeek 系列里动刀最多的一版。相比 V3，V4 在三个地方做了升级。

第一，引入 mHC（Manifold-Constrained Hyper-Connections）强化残差连接。

第二，设计 hybrid attention 架构，CSA 和 HCA 交替叠加，解决长文效率问题。

第三，采用 Muon 作为主优化器。

MoE 部分仍然用 DeepSeekMoE，MTP（Multi-Token Prediction）模块跟 V3 保持一致。

一些细节微调包括，affinity score 的激活函数从 Sigmoid 换成了 Sqrt ( Softplus ( · ) ) ，去掉了 routing target nodes 的数量约束，前几层 dense FFN 换成了用 Hash routing 的 MoE 层。

接下来，我们一个个看。

mHC，给残差连接加一层约束

残差连接是何恺明2016 年在 ResNet 里提出来的，十年没怎么变过。模型一层一层堆，梯度沿着残差往回传，这是深度学习能 work 的前提。

但模型越来越深、参数越来越多之后，传统残差开始露怯，信号传递不稳，训练容易崩。

先说 Hyper-Connections（HC），这是 Kimi 团队之前提出的想法。核心是把残差流从一维变成 n_hc 条并行通道，每层之间通过一个矩阵 B 来混合。

A、B、C 是三个线性映射。想法很优雅，相当于给残差流增加了一个新的 scaling 维度。但 DeepSeek 在堆多层时发现，HC 经常出现数值不稳定，训练说崩就崩。

V4 的做法叫 mHC，把矩阵 B 约束到「双随机矩阵」的流形上（数学上叫 Birkhoff polytope），行和列都归一化为 1。这个约束带来两个好处。

矩阵的谱范数天然不超过 1，残差传播套上硬上限，爆不起来。

这种矩阵在乘法下是封闭的，堆很多层也稳。

输入映射 A 和输出映射 C 则通过 Sigmoid 函数保证非负且有界，避免信号互相抵消。

实现上用 Sinkhorn-Knopp 迭代，交替做行归一化和列归一化，迭代 20 次收敛。整个过程对每一层都跑一遍。

听起来贵，但 DeepSeek 做了 fused kernel，再配合选择性 recomputation，实测 mHC 带来的 wall-time 开销控制在 overlapped pipeline 的 6.7%。

技术判断上，mHC 不是那种让人眼前一亮的架构创新，更像是一个「稳得住大模型」的工程补丁。但随着模型深度和参数量继续往上推，这种补丁会变成刚需。

混合注意力机制

这是全篇论文最厚的一块，也是「百万 token 效率」的核心魔法所在。

V4 的注意力层不是一种，是两种交替使用的结构，CSA（Compressed Sparse Attention）和 HCA（Heavily Compressed Attention）。

CSA 做两件事，先压缩，再稀疏选择。

第一步，KV 压缩。 每 m 个 token 的 KV entries，通过一个带学习权重的 attention-like 机制压成一个。

第二步，lightning indexer + top-k 选择。这部分继承自 V3.2 的 DSA。对每个 query token，用一个轻量的 indexer 计算它和每个压缩 KV 块的相关性分数。

第三步，core attention。 在选中的这 top-k 压缩 KV 块上做 Multi-Query Attention，得到注意力输出。

第四步，grouped output projection。 因为 V4 把 head dimension c 设成了 512（比 V3.2 的 128 大得多），如果直接把所有 head 的输出投影回 d 维会很贵，所以做了分组投影，把 n_h 个 head 分成 g 组，每组先投影到一个中间维度 d_g，最后再合并投影回 d。

整个 CSA 等于做了两层压缩。第一层是序列长度压缩，n 变成 n/m。第二层是稀疏选择，n/m 变成 top-k。对 1M token 的序列，原本需要 attend 1M 个 token，现在只需要 attend 1024 个压缩块。

HCA 的思路更简单粗暴，压得更狠，但不做稀疏。

压缩率 m ’ =128，每 128 个 token 压成一个。压缩过程也没有 CSA 那样的 overlap，直接每 m ’个一组压。然后对所有压缩后的 KV 做 dense attention。

论文里没有长篇大论地解释 CSA 和 HCA 为什么要配对使用，但读完整个 architecture 章节，能看出它们的分工。

CSA 的压缩温和、靠稀疏把关，适合做 token-level 的精细检索。HCA 的压缩凶猛、保持 dense，适合做长距离的全局信号汇总。

V4 把两者层层交替。Pro 有 61 层，Flash 有 43 层，CSA 和 HCA 一层一层往上叠。既不漏细节，也不被细节拖住。

此外，论文还透露了几个 trick。

Q/KV normalization。 CSA 和 HCA 在 core attention 之前，都对 query 和 KV entries 做一次 RMSNorm，防止 attention logits 爆炸。

Partial RoPE。 只对 query 和 KV entries 的最后 64 维施加旋转位置编码，其余维度不动。

因为 KV entries 既做 key 又做 value，naive 的 RoPE 会让输出带上绝对位置信息，所以在 output 端也对应施加一个位置为 -i 的 RoPE 来抵消，只保留相对位置信息。这是个巧妙的工程处理。

Sliding window attention 作为辅助分支。

因为压缩注意力保证严格因果性，一个 query token 看不到自己压缩块内其他 token 的信息。为了补偿近距离依赖，V4 额外加了一个 sliding window 分支，每个 query 除了看压缩 KV 之外，还能看最近 128 个 token 的 uncompressed KV。

Attention sink。 借鉴 OpenAI 和 StreamingLLM 的 trick，在 attention 分母上加一个 learnable sink logit，允许 attention score 总和不等于 1。

这在长序列里尤其有用，能避免模型被迫把注意力均摊。

Muon 优化器

V4 训练中绝大多数参数优化用的不是 AdamW，是 Muon。

Muon 是前几年 Keller Jordan 那批人（他现在在 OpenAI）在小模型上验证过的优化器，基于矩阵正交化。

它只优化 2D 参数矩阵，其他参数（embedding、prediction head、RMSNorm 权重、mHC 的静态偏置等）还是走 AdamW。

Muon 在 LLM 规模上的第一次大规模验证是 Kimi K2。 2025 年，Moonshot 用 Muon（加上他们自己的 QK-Clip 变种，合称 MuonClip）训了一个 1T 参数的 MoE，15.5T token，全程零崩溃。

现在 DeepSeek 也用上了。不过他们做了自己的版本，hybrid Newton-Schulz 迭代，10 步分两段。

前 8 步用激进系数，快速把奇异值推向 1 附近。

后 2 步用温和系数，精确地把奇异值稳定在 1。

这里有个细节值得注意。Kimi 用 Muon 需要 QK-Clip 来防止 attention logits 爆炸，DeepSeek 没用这招。他们的理由是，V4 的注意力架构允许直接对 query 和 KV 做 RMSNorm，从源头把爆炸的可能压住了。

两家公司，同一个优化器，解决同一个问题，走的是两条路。这种跨团队的技术共享和各自演化，是 2026 年开源社区最有意思的一面。

模型训练

DeepSeek-V4 系列在预训练数据量上实现了翻倍。

对比 V3 仅用 14.8T Token 训练，V4-Flash 与 V4-Pro 的数据消耗量分别达到了 32T 和 33T。训练数据量整整翻了一倍多（增长约 1.2 倍）。

数据构成上，长文档数据单独 curate，优先收录科学论文和技术报告这类有学术价值的长材料。tokenizer 仍用 V3 的 128K 词表。

在模型架构上，V4-Flash，43 层，隐藏维度 4096。

MoE 用 1 个 shared expert + 256 个 routed experts，每 token 激活 6 个。总参数 284B，激活 13B。

V4-Pro，61 层，隐藏维度 7168。MoE 用 1 个 shared expert + 384 个 routed experts，每 token 激活 6 个。总参数 1.6T，激活 49B。

训练调度上，序列长度走四段，4K → 16K → 64K → 1M。sparse attention 不是从头打开，前 1T token 用 dense attention 做 warmup，扩到 64K 时才 introduce sparsity。

论文表示，训练中间出过一次严重的 loss spike，DeepSeek 摸到两个土办法，Anticipatory Routing 和 SwiGLU Clamping。论文原话非常诚实，这两个 trick work，但底层机理仍是 open question。

一个训练了两个万亿参数 MoE 的团队公开承认「我们不知道为什么这两个 trick 管用」，在 2026 年已经是一件挺稀罕的事。

在后训练阶段，V4 这一代做了一次方法论替换，传统的 mixed RL 阶段被 On-Policy Distillation（OPD）完全替代。

流程分两步。

第一步，训 domain specialist。

数学、代码、agent、指令跟随四个领域，各自独立训一个 expert。先 SFT 打底，再用 GRPO 做 domain-specific RL。V4 还引入了三档 reasoning effort mode，Non-think、Think High、Think Max，每档输出长度不同。

第二步，OPD 合并。

十几个 expert 通过 on-policy distillation 合进一个统一的 student。student 自己 rollout，最小化 reverse KL 向对应领域的 expert 对齐。数学任务向数学 expert 靠，编程任务向编程 expert 靠。

方法论听起来很优雅。但工程上装不下，十几个 teacher 每个都是万亿级，vocab size 超过 10 万。

V4 的做法是 teacher 权重 offload 到分布式存储按需加载，只缓存 hidden states 不 materialize logits，按 teacher 排序样本保证每个 mini-batch 只加载一个 teacher head。

一套看似优雅的后训练方法论，背后是一堆「不这样做就装不下」的工程妥协。

实验结论

在实验部分，有三件最值得说的事。

开源领先。

SimpleQA-Verified 上 V4-Pro-Max 拿到 57.9，K2.6 是 36.9，GLM-5.1 是 38.1。领先所有开源模型 20 个百分点。

匹敌闭源。

Codeforces rating 3206，超过了 GPT-5.4 的 3168 和 Gemini-3.1-Pro 的 3052，在人类选手榜单上排名第 23。开源模型匹敌闭源头部，这次是真的匹敌了。

差距仍在。

HLE 上 V4-Pro-Max 37.7，Gemini-3.1-Pro 44.4，Claude-Opus-4.6-Max 40.0。1M MRCR 上 V4 优于 Gemini 但明显不如 Claude。知识类和最前沿的推理任务仍有 3-6 个月的 gap。

论文中，DeepSeek 表示：

DeepSeek-V4-Pro-Max 在标准推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro，但略落后于 GPT-5.4 和 Gemini-3.1-Pro。这表明其发展轨迹大约落后最前沿闭源模型 3 到 6 个月。

Flash-Max 可能是这篇论文最被低估的一部分。

V4-Flash-Max 只激活 13B 参数，推理任务上能打平 GPT-5.2 和 Gemini-3.0-Pro，代码和数学甚至超过 K2.6-Thinking。

如果只看激活参数量，这是目前效率最极致的推理模型之一。

现实任务里最值得提的是内部 R&D 代码 benchmark，V4-Pro-Max 67%，接近 Claude Opus 4.5 的 70%。

85 人的内部开发者调研里，91% 表示 V4-Pro 可以作为主力 coding 模型。

在官方的推文中，也侧面印证了这个说法：

目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。

在论文的最后，DeepSeek 也表示：

为了追求极致的长文效率，V4 系列采取了一个相对激进的架构设计。为了降低风险，我们保留了许多已经验证过的组件和 trick，这让架构变得相对复杂。在未来的迭代中，我们将进行更全面、更有原则的研究，把架构精简到最本质的部分。

未来方向几条，探索新维度的 sparsity（点名了 Engram 那条线）、低延迟架构、长时程多轮 agentic 任务、多模态、更好的数据 curation。

有个蛮有意思的小细节，在形式化数学评测中，DeepSeek 也皮了一下友商：

我们在 K2.6 和 GLM-5.1 的部分条目留空了，因为它们的 API 太忙，没法及时返回我们查询的结果。

太火了，就是说。

总结

把 V4 放回 DeepSeek 的完整路径里看，它不是在追赶 frontier。

过去三年的趋势非常清晰。闭源大厂追求的是能力上限，谁家的模型能在 HLE 上拿更高分。DeepSeek 追求的一直是另一条线，同样能力下的成本下限。

V4 把这件事推到了百万 token。一个 1M 的上下文，在 V3.2 的成本结构下是不可持续的，KV cache 会把显存吃光。V4 把它压到 V3.2 的 10%，成本曲线突然打直了。

那结果会怎样呢。一个很长的 agent 会话，一份反复回读的技术文档，一次跨多仓库的重构，这些过去要切窗口、要加 retrieval、要精心管理上下文的场景，在 V4 这里变成了「全塞进去看看再说」。

DeepSeek 这几年做的事，底层动作很清晰，一直在删。从 V2 的 MLA 开始，每一代都在删 KV cache、删激活参数、删注意力计算量。

删到 V4，单 token 推理 FLOPs 砍到四分之一，KV cache 砍到十分之一。

百万 token 不是一个新的能力，是同一个上下文窗口被压到可以承担的成本。

One more thing

论文的结尾有一份长长的贡献者名单。

梁文锋在其中。

其中有不少带星号的名字，是已经离开团队、但仍然对 V4 做出过重要贡献的研究者。

过去这一年，关于 DeepSeek 人才流失的消息传过好几轮。但这份名单把他们的名字和 V4 这个大家等了整整一年多的模型，绑在了同一张纸上。

每一个人都算数，每一天也都算数。

V4 发布当天，DeepSeek 研究员陈德里在 x 上转发并写道：

DeepSeek-V3：2024 年 12 月 26 日。

DeepSeek-V4：2026 年 4 月 24 日。

484 天后，我们谦卑地分享这份爱心的劳动。

一如既往，我们始终坚持长期主义和全民开源。

AGI 属于每个人。

参考链接

[ 1 ] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

[ 2 ] https://arxiv.org/pdf/2512.24880

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

谁会代表 2026 年的 AI？

龙虾爆火，带动一波 Agent 与衍生产品浪潮。

但真正值得长期关注的 AI 公司和产品，或许不止于此。

如果你正在做，或见证着这些变化，欢迎申报。

让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签