
Transformer 的奠基人,开始参与寻找 Transformer 之后的下一步。
Google 工程副总裁、Gemini 模型联合负责人 Noam Shazeer 在 X 上宣布,自己将离开 Google,加入 OpenAI。

Shazeer 是《Attention Is All You Need》的核心作者之一,最早的 "Transformer 八子 " 就有他的名字。
从 GPT 到 Claude、从 Gemini 到几乎所有主流大模型,现代 AI 的底层结构都绕不开 Transformer,而 Shazeer 正是最早参与定义这套结构的人之一。
2024 年,Google 曾通过一笔约 27 亿美元的技术授权与人才回流交易,把 Shazeer 和部分 Character.AI 团队重新请回 Google,让他参与 Gemini 模型研发。不到两年后,这位 Gemini 联合负责人再次离开 Google,转身去了 OpenAI。
据 OpenAI 首席研究官 Mark Chen 发帖,Shazeer 将担任 OpenAI 新的架构研究负责人。

Sam Altman 也发帖表示,从 OpenAI 创立之初,Noam 就是他最想合作的人之一。他等这一天等了十年,但很值得。

被 Google 反复追回的人,又离开了 Google
Noam Shazeer 并不是第一次离开 Google,从他的领英账号来看,他的职业生涯几乎一直在和谷歌 " 拉拉扯扯 "。
Shazeer 曾在 2024 年 8 月播出的 Dwarkesh Podcast 访谈中说,自己似乎每隔 12 年就会重新加入一次 Google:2000 年一次,2012 年一次,2024 年又一次。

2000 年 12 月,Shazeer 加入 Google,成为公司早期的软件工程师。那时的 Google 还很年轻,他也是最早一批加入公司的工程师之一。
Shazeer 最早参与的重要项目之一,是改进 Google 搜索的拼写纠错系统。但他感兴趣的不只是搜索——还有 AI。
他在播客里说,自己当年加入 Google,有一个很朴素的想法:先赚一些钱,以后就可以长期做 AI 研究。
2009 年,Shazeer 曾短暂离开 Google。公开资料并没有详细说明这次离开的原因。后来他在播客中回忆,几年后自己回 Google 和妻子吃午饭,碰巧坐到了 Jeff Dean 和早期 Google Brain 团队旁边,被那群人重新吸引。
2012 年,Shazeer 重新加入 Google。那一年,Google Brain 正处在早期阶段,Jeff Dean 等人正在把深度学习从研究项目推进到 Google 内部更核心的位置。这次回归也让 Shazeer 从早期搜索工程体系,转向 Google 的 AI 主航道。
几年后,Shazeer 的名字开始真正进入现代 AI 史。
2017 年,他和 Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin 等人共同发表《Attention Is All You Need》,提出了 Transformer 架构。

后来发生的事情,已经不需要太多解释。几乎所有主流大模型,底层结构都绕不开 Transformer。
Transformer 之外,Shazeer 很早就参与推动稀疏 MoE,也就是混合专家模型——这条路线的核心思想是,不让每次计算都激活整个模型,而是根据不同输入调用不同 " 专家 " 模块,从而在扩大模型容量的同时控制计算成本。
后来,MoE 成为大模型扩展和效率优化的重要方向。
2021 年,Shazeer 和 Google 同事 Daniel De Freitas 离开公司,创办 Character.AI。据传,这件事的导火索是 Google 拒绝公开发布他们参与开发的一款聊天机器人。

那款产品最初名为 Meena,目标是让 AI 能围绕广泛话题展开自然对话。
据《华尔街 · 日报》报道,Shazeer 曾在一份内部备忘录《Meena Eats the World》中预测,这类聊天机器人有可能取代 Google 搜索,并创造数万亿美元收入。
但 Google 没有选择发布它,高管给出的理由包括安全性和公平性风险。对 Google 来说这或许是谨慎,但对 Shazeer 这样的人来说,更像是一个巨大机会被放下——而机会被放下,往往意味着被错过。所以 Shazeer 离开了。
一年后,OpenAI 用另一种方式证明了 Shazeer 的判断。2022 年 11 月,ChatGPT 让全世界意识到,聊天机器人可能成为普通人接触 AI 的第一入口。
Character.AI 也在这股浪潮中快速起势。
2023 年 3 月,Character.AI 完成 1.5 亿美元融资,估值达到 10 亿美元。它主打各种可对话的 AI 角色,用户可以和实用助手、虚构人物甚至名人形象聊天。

当年没有放行 Meena 的 Google,最后又不得不把 Shazeer 请回来。
2024 年,Google 与 Character.AI 达成一笔特殊交易:Google 获得 Character.AI 的部分技术授权,同时把 Shazeer、Daniel De Freitas 以及部分研究团队带回 Google DeepMind。
为了拿到技术和人,Google 付出的代价高达约 27 亿美元。
据《华尔街 · 日报》报道,Shazeer 也因为持有 Character.AI 股份,在这笔交易中获得了数亿美元收益。
换句话说,Google 当年拒绝发布的聊天机器人路线,最后以另一种昂贵的方式回到了 Google。
回归后,Shazeer 加入 Gemini 核心领导层,参与 Google 最重要的大模型研发。他的头衔变成了 Google 工程副总裁、Gemini 模型联合负责人。
不到两年后,剧情又迎来转折—— Shazeer 又一次离开 Google。这一次,他去的是做出 ChatGPT 的 OpenAI。
细想来,他的故事多少像是一段关于 chatbot 的孽缘。
Transformer 之后,下一个改变时代的架构
据 OpenAI 首席研究官 Mark Chen 的说法,Shazeer 将担任 OpenAI 新的架构研究负责人。
过去几年,大模型行业最熟悉的叙事是 scaling law:更多数据、更大模型、更多算力、更长上下文,带来更强能力。
但从 2024 年开始,越来越多迹象表明,单纯扩大预训练规模的边际收益正在下降。
Ilya Sutskever 曾公开表示,预训练作为过去几年最重要的 scaling 配方,正在接近数据和方法上的边界;如果只是把规模再放大 100 倍,并不会自动带来下一次 GPT-3 到 GPT-4 式的跨越。
另一方面,Transformer 本身的短板也开始暴露出来。
前些年,大家还会把问题理解成 " 模型还不够大 " 或者 " 上下文还不够长 ",但现在越来越多研究显示,很多能力瓶颈并不只是规模问题,而是架构问题。
比如,长上下文不等于真正记忆。模型可以在几十万甚至上百万 token 的上下文里检索信息,但这不代表它真的维护了一个稳定的内部状态。它能回看过去,不等于它清楚当下的情况。
再比如,思维链不等于真正推理。Chain-of-Thought、reasoning model、test-time compute 的流行,说明模型确实需要更多中间计算。但如果每一点状态变化、每一个简单推理,都要靠显式文字写出来,再重新喂回模型,本质上是一种非常昂贵的补丁。
Google DeepMind 前段时间发的论文《The Topological Trouble With Transformers》(Transformer 的拓扑困境),讨论的就是上述问题。

论文指出,纯前馈 Transformer 在动态状态追踪上存在结构性短板。Transformer 很擅长回看上下文,却不天然擅长维护一个持续变化的内部状态。
论文举了几个直观的例子:模型可以在上下文里看到前面的对话,却仍然在多轮交互里出现前后不一致;它可以看到关于 "bank" 的上下文,却在后续问题里从把这个词从 " 河岸 " 理解成 " 银行 ";它也可能在猜数字游戏里给出互相矛盾的反馈。
如果一个模型只是把过去全部放进窗口里,再通过注意力机制去查找,它更像是在翻一本很长的笔记,而不是持续拥有一个会更新的记忆。
说起来,这背后甚至带有一点认知科学和哲学意味。以人类本身为例,人的记忆和想象力共享一个高度重叠的核心神经网络——记忆并不是把过去完整存档,然后在需要时原样调取。很多时候,记忆更像是一种回溯性的重建:大脑在当下重新组织线索、补全语境,并把过去、想象和判断混合成一个可以行动的状态。
真正的智能,尤其是长程推理、多轮对话、规划、代码代理和复杂任务执行,需要的不止是回顾过去,还要理解当下实在的状态。
当然,Transformer 毕竟是很久之前的底层架构,这篇说的 " 短板 " 其实更像是放在现在的评价框架里去看过去的一个架构。
但也恰恰说明,Transformer 未必一定适合我们当下对于智能的需求。
现在围绕 Transformer 的改造已经层出不穷:MoE 试图解决参数规模和计算成本之间的矛盾;高效解码试图降低推理成本;长上下文试图扩展模型的记忆边界;state-space model、递归结构、latent reasoning、test-time compute,则试图补上状态追踪、长期一致性和动态推理的短板。
AI 行业渐渐形成了一个新的共识——下一代模型不能只是更大的 Transformer,它必须更会组织计算、更会维护状态、更会在推理过程中更新自己对世界的表示。
于是,架构问题又被翻了出来。
Shazeer 加入 OpenAI 的象征意义就在于此,架构研究负责人这个岗位指向的,正是前沿模型竞争最底层的问题。
这让 Shazeer 的跳槽不再是 "Transformer 之父去 OpenAI 继续加强 Transformer" 的故事,更像是一个参与定义 Transformer 时代的人,开始参与寻找 Transformer 之后的下一步。
机会成本、人才战争和下一代模型
对 Google 来说,Shazeer 的离开当然是损失——这个损失并不只是少了一位 Gemini 联合负责人,还指向 Google AI 史里那个反复出现的问题:它常常很早看到未来,却未必能最快把未来推到用户面前。
Shazeer 在播客中回忆,Larry Page 以前常说,Google 第二大的成本是税,最大的成本是机会成本。(以防万一,Shazeer 还补了一句:如果 Page 没说过,那自己已经误引他很多年了。)
Google 拥有世界上最强的研究人员、最完整的工程体系、最先进的 TPU 和数据中心、以及足够庞大的产品入口。但越是这样的大公司,越要在安全、公平、组织边界和产品化风险之间反复权衡。
在 AI 这样一个窗口期极短的行业里,谨慎本身可能是必要的,但谨慎也可能变成昂贵的延迟、机会的流失。
而对 OpenAI 来说,Shazeer 的加入,意义非常重大——就连 Sam Altman 都表示 " 从 OpenAI 创立之初,Noam 就是他最想合作的人之一 "。
OpenAI 得到的是一组极其稀缺的经验集合:Transformer、MoE、大规模训练、高效解码、对话模型、基础模型工程,以及在 Google 这种超大规模系统里多年打磨出来的架构直觉。
大模型架构研究并不是提出一个漂亮想法就结束了。Shazeer 在播客里说过,小规模研究最理想的状态,是早上醒来想到一个主意,当天写出来,跑一些实验,很快看到初步结果。
而前沿模型研发真正困难的地方,恰恰在于从 " 小实验 " 走向 " 大系统 "。一个改进在小模型上看起来有效,放大到最大规模训练时未必还能成立;几个单独有效的技巧放在一起,也未必能协同工作。
到了最大规模训练,很多实验几乎无法真正加速。最后仍然是 N=1 的实验:一群最聪明的人坐在房间里,盯着训练结果,判断到底是哪一部分起了作用,哪一部分拖了后腿。
OpenAI 现在需要的,不只是更多 GPU、或者再训练一个更大的模型。它需要更底层的架构判断:把有潜力的结构放大到真实训练系统里,把效率提升转化为成本优势,并用新的架构变化打开下一代能力。
Shazeer 最可贵的地方就在于判断能力。
与此同时,OpenAI 正在面对十分沉重的财务压力。
Financial Times 报道称,OpenAI 2025 年支出达到约 340 亿美元,净亏损约 390 亿美元;另有泄露财务文件口径显示,归属于 OpenAI 的净亏损约为 385 亿美元。
这里面包含不少复杂的会计和非现金项目,但方向很清楚:前沿模型竞争正在变成一场极其昂贵的战争。
OpenAI 的紧迫感,部分也来自它最直接的对手 Anthropic。
今年 6 月,Anthropic 和 OpenAI 先后提交 IPO 文件,两家公司几乎在同一时间把自己推向公开市场。
在这个节点上,Anthropic 一直在补强核心人才。今年 4 月,Anthropic 请来前 Microsoft Azure AI 高管 Eric Boyd 担任基础设施负责人,负责支撑 Claude 继续扩张所需的底层系统。5 月,Anthropic 还拉来了 OpenAI 联合创始人 Andrej Karpathy,让他加入 Claude 的预训练团队,并组建一个用 Claude 加速预训练研究的小组。
于是,OpenAI 也在人才上抓紧补强:Shazeer 负责架构研究,Clint Gibler 加入 OpenAI Cyber 团队,分别指向模型底层能力和安全能力。
这场人才战背后,争夺的是谁能更快找到下一代模型的训练方式、推理方式和组织计算的方式。OpenAI 如果要在上市前继续证明自己的领先性,就必须证明自己有能力把模型做得更强、更稳定、更便宜。
而现在,OpenAI 把这个问题交给了曾经一位参与定义 Transformer 的人。


登录后才可以发布评论哦
打开小程序可以发布评论哦