DeepSeek掀桌后，大模型厂商应该关注什么？

文 | 利昂先生

4 月 24 日，DeepSeek V4 虽迟但到。

1.6T 参数，MIT 协议全量开源，百万级上下文直接拉满。

鼓掌的除了整个科技圈，还有那些在前一天卖空 Minimax 和智谱股票的股民们。

但内行人更关注的是，DeepSeek V4 创新性地用了两套全新的底层设计：Engram 条件记忆模块和 mHC（流形约束超连接）。

核心目的只有一个：在保持模型效果的前提下，把训练和推理的成本打下来。

这说明了一件事：模型层面的创新，正在和基础设施层面的创新深度绑定。

一个月前，OpenAI 核心基础设施团队的大牛翁家翌说了一段话，在技术圈疯传：

" 现在的大模型竞争，拼的不是 Idea 多精妙，而是 AI Infra 的正确性与单位时间内的迭代次数。Idea 是廉价的，能被快速验证的 Idea 才值钱。"

这句话，百度智能云的百舸团队显然听进去了。

最近，他们开源了一个 AI 训练框架，直接把这场 " 速度战 " 的烈度往上抬了一个量级。

它叫 "LoongForge"。

// 一个科普：训练框架是个啥？

大模型训练，不是写几行代码就能跑的。

一个几百亿参数的模型，一张 GPU 卡装不下，得 " 切 " 成很多块，放到几十张甚至几千张卡上同时训练。

这就带来一堆问题 :

怎么切？模型有几百层，每层都要切，切错了就跑不起来。

怎么通信？几千张卡在训练，每张卡算完自己的部分，要和其他卡交换数据。交换慢了，整个训练就慢了。

怎么管理显存？模型参数、梯度、优化器状态，都要占显存。显存不够，训练就崩了。

怎么保证稳定？几千张卡跑几天几夜，中间某张卡出问题了，整个训练要重来吗 ?

这些问题，如果让每个工程师自己解决，那得累死。于是就有了 " 训练框架 "。

它像一个智能管家——自动切分模型、优化通信、管理显存、保证容错。

有了这个 " 老师傅 "，工程师才能专注于模型创新，而不是被工程细节拖死。

多模态时代，老框架有心无力

把时间拉回两年前，那时大模型基本都是 " 纯文字 "，训练框架早就很成熟了，而且绑在 NVIDIA 一棵树上。

但到了现在，情况变了：文生图、图生文、视频理解、机器人控制……所有最性感的 AI 方向，都是多模态。

训练多模态模型，和训练纯文字大模型，完全不是一个概念。

多模态模型——视觉编码器（ViT）+ 语言模型（LLM）+ 投影层，三个模块参数量差了上百倍。传统框架只能给它们强制套用同一套并行策略——小的模块闲死，大的模块累死。

坑二：数据不均匀，GPU 互相等

多模态数据差异巨大：单张图片 ~256 token，20 分钟视频 ~100000+ token。

Attention 的计算复杂度是序列长度的平方级，分到视频的那块 GPU，计算量是分到图片的上万倍。

其他 GPU，全在（摸鱼）等它。

国产芯片越来越多地进入大模型训练场景，但训练框架是深度绑定英伟达 GPU 。换芯片？重写一遍，维护两套代码，成本极高。好不容易迁移完了，还发现性能对不上。

老框架们面对多模态，就像中年人面对 996，力不从心。

//LoongForge 如何填坑（略长，但通俗易懂）

百度智能云百舸团队给出的答案，就是 "LoongForge"。

从技术上说，LoongForge 是一个全模态训练框架——覆盖纯文字（LLM）、视觉语言（VLM）、机器人控制（VLA），甚至文生图（Diffusion）场景。

但说人话就是：他们把上面那三个坑，一个一个填了。

一、让每个模块都拥有最优策略

传统框架 " 一刀切 " 的并行策略，对视觉编码器和语言模型都不友好。

LoongForge 的做法是：把这两者解耦，各自独立配置最优的并行方案。

这相当于什么？以前是三个人挤一张桌子吃饭，小个子够不着，大个子伸不开腿。现在是各坐各的桌椅，各用各的餐具，谁也不耽误谁。

实测效果：

二、智能化分配任务，让摸鱼的 GPU 动起来

传统框架的 " 大锅饭 " 思路，不只耽误效率，还浪费成本。

LoongForge 引入了一套自动负载均衡机制：计算量大的样本（比如长视频），少分配一些；计算量小的样本（比如单张图片），多分配一些。目标是让每块 GPU 拿到的计算量尽量相当。

这就像一个聪明的项目经理，给能力强的人多分配任务，让团队整体效率最高。

这对提升大规模集群的扩展效率极为重要。

实测效果：

解释一下这个 90%+ 是什么概念——千卡规模下，很多框架的扩展效率掉到 60-70% 就已经算不错了。90%+ 意味着几乎线性扩展，每一分算力都花在了刀刃上。

LoongForge 的解法是做了一个叫 XPU_Plugin 的硬件接入层——底层硬件的差异，被这层插件吃掉了。

同一份训练代码，只改一个环境变量，就能在 GPU 和昆仑芯之间无缝切换。它意味着，那些想 " 两条腿走路 " 的公司，不需要维护两套代码库了。

当然，这事的意义也不只是 " 省事 "。

它甚至意味着——NVIDIA 的生态壁垒，被拆掉了一层。

当然，LoongForge 做的还不止这些——

比如：

因为 MoE 有大量 " 专家 " 分散在不同 GPU 上，所以训练要频繁跨 GPU 通信，长序列时通信成百上千次，速度被拖死。

业界的做法是让计算和通信 " 重叠 "，GPU 算当前数据时，同时传输下一批数据，通信时间就 " 藏 " 在计算里。

但因为要提前存下一批数据，显存爆炸。长序列时，这块显存可能比模型本身还大。

所以，MoE 模型训练要么显存爆炸，要么通信慢。

LoongForge 搞了一套组合拳——

再比如：

DeepSeek v3.2 用了一种叫稀疏注意力的新技术。只计算重要的关系，忽略不重要的关系，大幅降低计算量。

但这个技术实现起来很复杂，优化起来更难。

LoongForge 对 DeepSeek V3.2 的稀疏注意力架构做了深度优化：算子融合（小操作合并成大操作）、索引优化（加速数据访问）、KV 布局优化（减少显存占用）、序列拼接（多小任务打包提高效率）。

这不是调个参数，是重写计算内核。

又比如：

因为传统框架的模型定义和分布式策略深度耦合，每来一个新模型，就得深入底层代码改一遍，接入训练框架，往往需要数周时间。

LoongForge 通过一套标准化的三层抽象，加上 YAML 配置文件驱动，把新模型接入的工作量，从数周压缩到了数天。

这个速度，放在行业里，很能说明问题。

以具身智能为例。

具身智能需要的 VLA（Vision-Language-Action）模型——把视觉、语言、动作三个模态统一在一个模型里训练，对训练框架的显存管理和通信效率要求极其苛刻，比普通多模态模型更折磨人。

很多做具身智能的团队，都被卡在这里——模型设计好了，但训练跑不动，或者跑太慢。

而 LoongForge 在这个场景下的表现，相当亮眼——

PI0.5（代表性 VLA 模型），相比社区框架，训练速度提升了 49%。

这个数字意味着：同样训一个机器人控制模型，别人花 20 天，你花 10 天。

" 首发 " 和 " 跟风 "，区别立现。

// 模型拼到底，拼的是什么 ?

一个更深层次的问题，现在大模型竞争这么激烈，大家都在拼什么 ?

以前大家只关心模型效果好不好、参数多不多、榜单排名高不高。现在越来越多的人开始意识到：算力才是真正拉开差距的地方。

为什么这么说？

先看历史：

2007 年，CUDA 出现了。一个工具，改变了一个时代。

2017 年，PyTorch 出现了。一个框架，加速了一个行业。

再看现在：

多模态时代来了。同样花 1 个亿买芯片：用老框架的团队，每天能跑 2 个实验；用 LoongForge 的团队，每天能跑 4-6 个实验。

一个月下来，就是 60 个实验 vs 180 个实验的差距。这个差距，积累三个月，就是代差。

翁家翌的话再品一遍：

LoongForge 做的，就是让 " 快速验证 Idea" 这件事，变得更容易、更便宜。

现在，百度智能云把 LoongForge 以 Apache 2.0 协议完全开源了。这意味着，商用没问题，改也没问题，拿来养自己的模型也没问题。

他们为什么敢开源？

一种可能是：这套东西他们已经在内部跑了很久，足够自信，拿出来示人，顺便吸引开发者围绕昆仑芯构建生态。

这个逻辑，和当年英伟达用 CUDA 锁定开发者生态，本质上是一样的。先有好的训练框架，再有繁荣的硬件生态，最后形成护城河。

现在，这条路上多了一个中国玩家。

LoongForge 能不能跑出来，还得看社区反馈和后续迭代。

但至少，方向是对的。