40天没合眼!这5人训练出Gemini 2.0对抗DeepSeek

Vlad Feinberg，DeepMind Gemini 预训练负责人，提起那 40 天还是咬牙切齿。

"5 个人，轮班倒，几乎没人真正睡过觉。"

他们不是在卷什么新架构，而是在抢时间窗口—— DeepSeek 的势头太猛了，Gemini 必须拿出一款能在推理速度上正面硬刚的产品。Gemini 2.0 Flash 就是在这种高压下被 " 肝 " 出来的。

以下是 Feinberg 在最新播客采访中透露的几个关键内幕：

第一，团队为什么只有 5 个人？不是没钱招人，是预训练阶段需要极高密度的决策同步。人越多，沟通成本越高，反而拖慢迭代速度。5 个人刚好能塞进一间会议室，所有争论都在白板上当场画当场定。

第二，量化方案是训练前就定好的。通常的玩法是先训练一个全精度模型，再慢慢压缩。Gemini 2.0 Flash 反其道而行——训练和推理的量化策略是一起设计的。Feinberg 称之为 " 推理联合设计 "，从第一天就把部署效率写进训练目标里。

第三，这 40 天暴露了一个残酷事实：预训练的经验壁垒比代码壁垒还高。你就算有同样的算力，不知道什么样的数据配比、什么样的训练曲线才算 " 健康的 "，几千万美元扔进去可能连个水花都看不到。

Feinberg 也顺带聊到了普通程序员怎么往 AI 方向转。他给的建议很实在：别一上来就啃论文、搞新架构。先去找一个 " 模型训练的不稳定现象 " ——比如 loss spike 或者梯度消失——然后死磕，搞清楚它为什么出现、怎么稳定复现、有哪些解法。踩过的坑越多，手里的望远镜就看得越远。

从 5 个人 40 天的死磕，到预训练 - 推理一体化的设计思路，这次内幕透露出来的信号很清晰：模型军备竞赛已经进入 " 精耕细作 " 阶段，谁能在工程细节上少犯错误，谁就能用更小的团队撬动更大的产出。

宙世代