
2026 年的第一天,DeepSeek 在 arXiv 上发布了一篇新论文《mHC: Manifold-Constrained Hyper-Connections》,提出了名为 mHC(流形约束超连接) 的宏观架构的创新。
听名字就很抽象,但若简单总结,这是 Transformer 最底层组件残差连接(Residual Connection)的一次重要改进。
这不只是一个技术细节的优化,如果把它放到更大的背景下,事情会更有意思,残差连接是 2015 年何恺明提出的,此后十年间几乎没有根本性的改动。DeepSeek 这次动的,是 Transformer 架构中最古老、也最基础的那块砖。
另外值得注意的是,DeepSeek 创始人梁文锋也出现在论文的 19 位作者名单中。

1
十年接力:从何恺明到 DeepSeek
要理解 mHC 的价值,需要先回顾一段技术演进史。
2015 年,何恺明等人在微软亚洲研究院提出 ResNet(残差网络)。 在此之前,神经网络越深、训练越困难,梯度消失问题几乎无解。残差连接的核心思想很简单:让信息可以 " 跳过 " 某些层直接传递,用公式表达就是 y = x + F ( x ) 。这个设计使训练上百层甚至上千层的网络成为可能,何恺明因此拿下 CVPR 2016 最佳论文奖。
2017 年,Transformer 问世,残差连接成为标配。从 GPT 系列到 Claude,从 Llama 到 DeepSeek,几乎所有主流大模型都建立在这个基础之上。

ResNet、Hyper-Connections(无约束)和 mHC(流形约束)的架构对比图。
而 DeepSeek 最新发布的 mHC 这篇论文要解决的,正是 Hyper-Connections 带来的稳定性问题。
从何恺明到字节再到 DeepSeek,这是一场跨越十年的接力。
在 Reddit 上,有网友用一个比喻来解释这段演进:

就像织毛衣。以前我们只用单股线,容易打结也容易断。现在改用多股线一起织,毛衣更结实、花纹更漂亮。但问题是线太多容易乱成一团。所以我们发明了一个智能理线器,让多股线排列整齐,既保留了多股线的优点,又像单股线一样顺滑好织。
翻译一下就是,ResNet 是单股线(稳定但通道有限),Hyper-Connections 是多股线(性能更强但容易 " 乱 "),mHC 就是那个智能理线器。
1
Hyper-Connections 为什么会 " 翻车 "?
原始残差连接之所以稳定,核心在于保持了 " 恒等映射 " 属性,信号通过连接后,能量不会被放大。你输入多少,输出就是多少,像一个能量守恒系统。
但 Hyper-Connections 为了增强表达能力,引入了可学习的连接权重矩阵。这些矩阵打破了恒等映射的约束,导致几个严重问题:
· 信号爆炸:权重矩阵可能让信号每经过一层就被放大,几十上百层累积下来呈指数级增长
· Loss 尖峰:训练过程中损失函数突然暴涨,甚至导致训练崩溃
· 规模受限:模型越大、层数越多,问题越严重

mHC 在不牺牲训练目标的前提下,比 HC 显著更稳定。
1
mHC 的核心创新:给连接矩阵加 " 数学护栏 "
DeepSeek 的解决方案是将连接权重矩阵约束在一个特定的数学空间上,双随机矩阵(Doubly Stochastic Matrix)。
它核心是这样:所有元素非负,每一行的元素加起来等于 1,每一列的元素加起来也等于 1。
为什么这个约束有效?因为当信号通过这样的矩阵变换时,输出实际上是输入各分量的凸组合,可以理解为一种 " 加权平均 "。根据数学性质,凸组合的结果不会超过输入的最大值。换句话说,信号不会被无限放大,能量守恒得到保证。
从数学角度看,双随机矩阵的谱范数恒小于等于 1,这意味着对应的线性变换是 " 非扩张的 " ——无论前向传播还是反向传播,信号都不会被无限放大。
具体实现上,DeepSeek 采用了经典的 Sinkhorn-Knopp 算法:对矩阵交替进行行归一化和列归一化,迭代几次就能收敛到双随机矩阵。论文实验表明,仅需 3 次迭代就能达到足够精度,而且整个过程可微分,支持端到端训练。
太艰深了?
没关系,重点是,这个方案的优雅之处在于,它没有引入任何新的超参数需要调节,也没有改变模型的表达能力,只是给原本的权重矩阵套上了一个数学上可证明的安全边界。
实验结果验证了这一设计的有效性:在 7B 规模的 Dense 模型训练中,mHC 模型全程没有出现任何 Loss 尖峰。在 MoE 模型上,收敛速度提升了约 1.8 倍。
1
DeepSeek" 秀肌肉 " 的一种方式
把 mHC 放到 DeepSeek 近两年的发展脉络中看,会发现一条主线,在有限资源下,通过架构创新最大化效率。mHC 可以说是对此的延续,用数学约束解决工程问题,用架构创新突破资源瓶颈。
值得一提的是,Twitter 用户 @nathancgy4(Kimi 研究员)表示,一位 DeepSeek 研究员在和他的交流中认为 2025 年最值得关注的两大架构创新是 muon 和 hyper-connections。前者已被 Kimi 深度探索,而后者正是 mHC 的技术根基。这意味着 mHC 可能只是 DeepSeek 在这条路上的第一步。

如果 mHC 被整合进下一代模型,再结合此前的一系列技术和工程创新,我们可能会看到一个在效率、性能和稳定性上全面升级的架构。
法国 AI 研究实验室 Pleias 联合创始人 Alexander Doria 在读完论文后给出了一个评价,这表面上是一篇架构论文,实际上是一篇 " 秀肌肉 " 的硬核工程论文。

因为理论上完美的数学方案(Sinkhorn-Knopp 迭代),如果直接跑在现有的训练框架上,会带来巨大的计算延迟和显存开销。
为了让这个 " 数学护栏 " 真正落地,DeepSeek 并没有调用现成的库,而是直接手写了底层的 CUDA 内核代码,利用算子融合(Operator Fusion)技术,把复杂的数学计算硬生生塞进了毫秒级的训练循环里。同时,他们采用了激进的 " 选择性重计算 " 策略,并在多卡训练中开辟专用计算流来掩盖通信延迟。
这才是前沿实验室(Frontier Lab)的标志——不仅要有算法灵感,还得有能力为了验证这个灵感,把整个训练环境的内核、内存管理、节点通信全部重写一遍。
这种把想法稳定、高效地落地到算力体系中的工程能力,可能就是 DeepSeek 最大的优势。


登录后才可以发布评论哦
打开小程序可以发布评论哦