Vlad Feinberg,DeepMind Gemini 预训练负责人,提起那 40 天还是咬牙切齿。
"5 个人,轮班倒,几乎没人真正睡过觉。"

他们不是在卷什么新架构,而是在抢时间窗口—— DeepSeek 的势头太猛了,Gemini 必须拿出一款能在推理速度上正面硬刚的产品。Gemini 2.0 Flash 就是在这种高压下被 " 肝 " 出来的。
以下是 Feinberg 在最新播客采访中透露的几个关键内幕:
第一,团队为什么只有 5 个人?不是没钱招人,是预训练阶段需要极高密度的决策同步。人越多,沟通成本越高,反而拖慢迭代速度。5 个人刚好能塞进一间会议室,所有争论都在白板上当场画当场定。
第二,量化方案是训练前就定好的。通常的玩法是先训练一个全精度模型,再慢慢压缩。Gemini 2.0 Flash 反其道而行——训练和推理的量化策略是一起设计的。Feinberg 称之为 " 推理联合设计 ",从第一天就把部署效率写进训练目标里。
第三,这 40 天暴露了一个残酷事实:预训练的经验壁垒比代码壁垒还高。你就算有同样的算力,不知道什么样的数据配比、什么样的训练曲线才算 " 健康的 ",几千万美元扔进去可能连个水花都看不到。
Feinberg 也顺带聊到了普通程序员怎么往 AI 方向转。他给的建议很实在:别一上来就啃论文、搞新架构。先去找一个 " 模型训练的不稳定现象 " ——比如 loss spike 或者梯度消失——然后死磕,搞清楚它为什么出现、怎么稳定复现、有哪些解法。踩过的坑越多,手里的望远镜就看得越远。
从 5 个人 40 天的死磕,到预训练 - 推理一体化的设计思路,这次内幕透露出来的信号很清晰:模型军备竞赛已经进入 " 精耕细作 " 阶段,谁能在工程细节上少犯错误,谁就能用更小的团队撬动更大的产出。


登录后才可以发布评论哦
打开小程序可以发布评论哦