ChatGPT 背后的男人:在 OpenAI" 卖铲子 " 的这几年。
智东西 1 月 20 日报道,ChatGPT 背后的一位中国工程师—— OpenAI 核心贡献者翁家翌,日前在 AI 播客 WhynotTV Podcast 接受专访,他首次详尽讲述了自己从清华少年到 OpenAI infra 骨干的经历。

图源自翁家翌 GitHub 主页
作为强化学习与后训练(Post-Training)系统的关键工程师,翁家翌深度参与了 GPT-3.5、GPT-4、GPT-5 等核心模型的训练,其搭建的 infra 系统已成为 OpenAI 内部大模型训练与迭代的基础底座,也是 ChatGPT 持续进化的关键支撑。
在这场长达两个多小时的对谈中,翁家翌披露了 OpenAI 内部 Post-Training 系统的构建逻辑,也解释了 OpenAI 为何能持续产出爆款模型。
他还分享了他对 AGI 定义、OpenAI 不 "open" 批评以及内部人才流动加剧等现象的第一手观察。
面对 DeepSeek、TikTok、英伟达、谷歌等科技巨头抛来的橄榄枝,他为何最终选择了 OpenAI?
谈及职业方向,他又为何自称 " 卖铲子里最面向客户的那位 ",并立下目标 " 我要最大化我在 OpenAI Blog 上出现的次数 "?
这场对谈,给出了答案。
01." 卖铲子 " 到主导 Post-Training,他是 OpenAI 模型背后的基础构建者
在 OpenAI 内部,几乎每一个大型模型的发布名单里,都能看到翁家翌的名字,他主导搭建了 OpenAI 强化学习后训练(Post-Training)阶段的核心基础设施。
"每发一个大的 release,每发一个大的模型,我的名字就得放上去。" 他说," 因为大家都在用整个 Post-Training infra 去训练 RHF 的模型。"
他说自己 " 是卖铲子里最面向客户的那位 ",因为强化学习模块处在整个基础设施栈的最顶端。他还给自己的职业生涯设定过一个指标:" 我要最大化我在 OpenAI Blog 上出现的次数。"
面对年轻人,他的建议仍是:持续投入工程建设,而不是学术研究。他不避讳地说:" 长远来看,我还是觉得现代学术界应该要被重构。" 在他看来,如果目标是进入工业界,最重要的是匹配真实的工作需求,"AI Lab 最缺的其实就是 Infra 人才,infra 是个无底洞。"
学术界研究往往陷在一些困境里,如 Atari、MoJoCo 等任务上过度拟合,并不能转化为实际问题的解决能力。他谈及," 我在 2022 年 8 月就意识到这个问题,所以逐步停止了天授的开发,转向在 OpenAI 内部构建更有意义的 RL Infra。"
而在 OpenAI 内,他目睹了一系列 " 半偶然半必然 " 的变革。加入之初,他参与的就是 WebGPT 后续项目,通过强化学习让模型更好地与用户交互。他负责构建的 RL 训练系统在 ChatGPT 爆发式上线之前,已成为公司内部主力使用的 infra 之一。
发布当天,OpenAI 服务器数次被挤爆,他形容这种 " 自发涌现的需求 " 就像自己做 tuixue online 时遇到的情形,"说明这确实是一个值得投入精力的方向 "。
被问到 OpenAI 为何能做出如此爆款,翁家翌归结于两个因素:一是单位时间迭代效率足够高,二是领导层真正懂技术。
OpenAI 在引入了几位前 Google 工程负责人之后(如 Barret Zoph、Liam Fedus),团队开始系统性提升工程效率,单位时间的迭代次数和成功率是正比的。
他强调,"RL 本质上就是 trial-and-error(试错)。你试得越快越多,成功就越近。"
OpenAI 的领导层也保持对细节的强关注。Greg Brockman(联合创始人兼总裁)几乎参与过公司所有基础设施模块,而 Sam Altman(联合创始人兼 CEO)则通过研究助理及时了解公司内部进展。他认为这种技术细节的敏感性和上下信息通畅正是 OpenAI 创新持续不断的原因。
翁家翌称," 管公司就像管代码库,一旦不一致,整个系统就会像拼装的人类,身子动了,脚没动。"
02. 他为 ChatGPT 模型搭建后训练系统,也在重构下一代 Infra
ChatGPT 3.5 正式发布之前,OpenAI 内部其实已开始在 GPT-4 上验证强化学习后训练(RLHF)流程的可行性。
翁家翌回忆,当时他负责的正是 RLHF 训练 Pipeline 的整体搭建:旧的 infra 是跑不动的,我在新 infra 上调通了第一版,先在 4 上做通,再迁回 3.5。这套 Post-Training 系统随后被用于整个 ChatGPT 系列模型的训练中。
这并不是一条 " 拿来即用 " 的流水线。他谈及,OpenAI 内部并没有现成可复用的 RLHF 基线,很多关键流程都需要从头构建。
真正的挑战,是模型效果的衡量标准并不清晰。" 你训练出很多个 checkpoint(检查点),但你不知道哪个是真的更好。" 用人类反馈奖励评估时,模型可能一开始奖励信号很高,之后却因过度拟合(hacking)而性能下降。
最终,团队只能依赖 "human-in-the-loop(人机协同)" 的评估流程,即让内部员工亲自交互测试、打分投票,选出效果最佳的版本。
从技术结构上看,这套 Post-Training 系统的难度远高于他曾经开发的 " 天授 " 框架。toy task(验证算法的小规模仿真环境)的瓶颈在环境,而大模型的瓶颈在模型本身。
环境是一个 Prompt,计算只要几微秒,但模型训练和采样则是几百甚至上千秒。系统工程的复杂性在于吞吐与扩展的平衡,以及对 GPU 资源的极限压榨。
而他正是那个站在强化学习、系统工程与大语言模型交叉点的人。他不仅要懂 RL 本身的逻辑,也得理解分布式系统、语言模型的推理方式以及底层架构。
工作强度一度让他因头痛被送进急诊。" 基本是早上醒来开始 debug,写到晚上睡觉,一周六天。" 自那以后,他强制自己每周跑两次 3000 米,恢复体力。翁家翌回忆称," 我之前在清华的时候,上体育课是就是 3000 米不及格,然后完全不会跑 3000 米的。"
同时,翁家翌也正在参与 OpenAI 下一代 RL Infra 的重构工作。" 旧架构已经三年多了,堆积的问题其实已经很多了。"OpenAI 要推倒重来,目标是清理技术债,帮助研究员以更高迭代效率推进实。
03. 他在福建省队拿下 " 唯一一块铜牌 ",叩开清华大门
面对 " 你小时候是个什么样的小孩 " 的问题,翁家翌从奥数讲起。他在数学上展现出超常的直觉能力,常常别人还在计算时他就已经写完了答案。
尽管解题速度快,他却并不认为自己是学得快的人,反而觉得自己在理解新知识时总是比别人慢,需要付出两到三倍的时间。同时,他也具备一种策略意识:既然慢,就要提前学。
他在初中就主动找数学老师问高中课程内容,初二就完成了大部分高中数学学习,初三开始学微积分。翁家翌坦言," 我想投资自己的未来。"
进入高中后,他因为升学压力开始参加信息学竞赛 OI(Olympiad in Informatics),希望以此作为进入顶尖大学的路径。他说,对于非北京的学生而言,直接考入清华北大 " 几乎难如登天 "。
他曾在数学竞赛上小有成绩,但因为学校资源有限、自己准备不充分,最终选择放弃数学竞赛,转而专注于 OI。
他在福建省内的选拔中一路拼到省队,在高二那年凭借一道最小二分覆盖题得到了全场最高分,顺利拿到清华 " 降 60 分 " 录取资格。但他也坦言,这是一次 " 险胜 ":" 那年福建省队只有一个铜牌,就是我。"
而这一路的训练,也塑造了他的习惯和思维方式。他回忆高三备考期间仍 " 偷偷写代码 ",甚至在没有编译器的 iPad 上直接键盘敲代码,这样的经历训练了自己对程序结构的完整认知与快速定位 bug 的能力。
他尤其沉迷于 " 常数优化 " 这种在算法竞赛中优化时间和代码长度的工程挑战,尽管他说这可能 " 没什么用 ",但 " 真的很有意思 "。他总结说,OI 让他意识到," 我真的可以从里面获得快乐 "。
04. 他在清华开源作业、修校园网 Bug,误打误撞走进了强化学习
进入高校后,如果要说清华生活里最 " 出圈 " 的事,是翁家翌给把所有的作业都开源了。
他收集了前几届流传下来的 " 上古作业 " 和课程材料,在征得无版权部分的确认后,悉数上传到了 GitHub。他说,在清华,信息差往往被当作一种生存资源,但 "我觉得每个人都应该平等地拥有这些信息"。
他笑称," 随便我们抓一个计算机的学弟,问问你认不认识捐楼的人,哪怕他把名字放在楼上面,你认不认识他?不认识。但你们认识我,因为毕竟大家都看我作业活的。" 他还打趣说,"比捐楼还有用。"
除了 " 火遍校园 " 的作业库,翁家翌在大二也开启了科研之路。他误打误撞报了清华计算机系的 " 学术新兴计划 "。当时他对科研方向还一无所知,只是模糊觉得 " 图像的东西挺有意思 ",于是盲选了强化学习,结果本以为是搞图像的,后来发现其实是打游戏的。
他其实一直对多个方向有浓厚兴趣。除了 AI,他也喜欢图形学和网络安全。在大学时,他曾和学长一起发现并修复了清华网的漏洞,使得本应收费十元的成绩单可以免费甚至一分钱下载。他修好 Bug 之后,还反馈给了教务部门。
图形学一度是他的最爱。他在图形学课程中投入了大量时间与情感,完成了一个几乎没有人敢尝试的 "16K 高清图渲染 " 大作业,并发明了一种加速迭代收敛的新算法,最终拿到了全班仅有的两个 A+ 之一。
但最终,他还是放弃了图形学。" 搞科研不能脚踏两条船 ",他做了取舍,选择了继续走强化学习的路。
05. 那些看似 " 折腾 " 的科研尝试,成了他走向 OpenAI 的 " 前传 "
自此,翁家翌开启了他的第一个科研项目:在一个上世纪 90 年代的游戏中训练神经网络,让智能体在固定地图里完成从出生点到终点的任务,包括杀怪、捡血包、避障、通关。
最终,他用强化学习方法拿下冠军。
尽管结果不错,他却坦言并不享受整个过程。" 这个环境太单一了,要疯狂地用技巧防止训练崩掉。即使不崩,你也不知道怎么调参才能保持。" 他说,"这种感觉就像‘炼丹’,这比 CV(计算机视觉)调参难十倍、一百倍,全靠 heuristics(启发式方法)。"
也正因此,他在大四有意识地将重心转向工具层面,尝试搭建一套面向强化学习的小型基础设施库。" 我非常擅长做软件工程的事,可以重构代码、优化用户体验。" 他说," 但至于怎么调,那不是我想碰的东西。"
大三暑假,他曾前往蒙特利尔的 Mila 研究所交流实习。彼时他投出大量套磁信却迟迟没有回应,最终在清华导师的帮助下,才联系上实习机会。他回忆,那年是 2019 年夏天,正好是 Mila 创始人、本体研究所负责人 Yoshua Bengio 荣获图灵奖的几个月后," 好在我是提前联系的,不然估计就进不去了。" 尽管进入的是 Bengio 所在的实验室,但他直接跟随的是一位 Postdoc,任务是尝试做一个类似 MoE(混合专家模型)的项目。
那是他第一次接触 Transformer 和语言建模。他花了很长时间上手,最终也只是 " 撮了一个东西出来 ",没什么效果。他回忆:" 要让这种东西 work,首先得有算力、有工程能力,还要能 scale up。当时就我一个人几块卡,哪怕方向对,也搞不出来。"
"NLP 的任务太分散了。" 他也观察到,当时很多人在尝试把 RL 用于训练语言模型,但 Transformer 容易在强化学习中崩塌,没人知道怎么让它不崩。
后来人们才发现,要让它 work,环境必须 " 纯 ",比如纯文本输入。
他坦言,当时对这些方向并没有清晰认知,只觉得处处受限。" 算力不够,认知也不够,哪怕有今天的理解,当时还是做不出来。"
大三暑假交流归来后,翁家翌开始准备出国深造的申请。但那段时间并不顺利。他坦言,状态其实 " 不太好 "。
眼看身边的同学纷纷进入 CMU、Stanford 等名校实验室,发出 ICLR、NeurIPS 等会议论文,而自己 " 什么都没有 ",落差感袭来。" 当时的话,我确实是有一点失望的,其实也花了一段时间来调整自己。后面觉得我一直以来应该都是想做一些让自己与众不同的事情。"
最终,他只申请上了硕士。" 当时确实有些失落 ",他说在清华,哪怕是国外的 PhD 和 Master,也会被视作天差地别。
翁家翌坦言,"我一直觉得,GPA 不是唯一的评价指标。你得创造自己的评价体系。" 他引用导师的标准:" 计算机系的三大指标:论文、比赛、GitHub 三位数以上的 Star。" 这句话影响了他很久,也让他意识到,除了刷成绩,还有很多 " 可见的价值 " 能让一个学生被世界看到。
本科期间,他努力在 " 尽可能少花时间 " 的前提下保持成绩刚好够用," 够用就行,多一分都不想花时间。" 他会在期末前计算当前的 GPA," 比如 87 分是 B+,那我就很满意了。"
不过,面对出国这个选择,他也并非完全独立于大环境之外。那是在 2019 年 12 月,他拿到 offer 时正值疫情。
06. 他用两个项目 " 做慈善 ":天授与 tuixue online,一炮而红
在申请季与疫情交叠的那段时间,翁家翌做了两个项目,一个叫 " 天授 ",一个是 "tuixue online"。他形容这两个项目都不是功利性的。
" 我不想发 paper,觉得没有意义。" 翁家翌坦言。对他来说,多一篇少一篇论文并没有意义。" 我申请已经够用了,比赛我也有了,GitHub 三位数 star 也勉强算有。我更想做一个正儿八经的、能被真正用起来的项目。"
" 天授 " 的起点,是不想再浪费时间 " 炼丹 "。2019 年底,他意识到强化学习(RL)领域的问题不在于算法本身,而在于实验平台。
他看了当时最主流的 RLlib 源代码,发现抽象极度复杂,几十万行代码几乎无法动手,干脆推倒重来。于是他在 2020 年春节假期开始自写一套 RL 实验平台,第一版两周就完成了。
不同于 RLlib 的 " 腐化 ",天授从设计伊始就追求极致的一致性(consistency)。翁家翌认为,天授 " 火 " 的核心在于真正抓住了科研用户的需求:一套简单、好改、稳定的框架。
另一个项目 "tuixue online",则源自亲身需求。他急需一个实时爬虫工具来查询签证预约状态。" 于是,我就手撸了一个轻量爬虫,不然没办法。" 他说。同时,翁家翌也觉得很多人应该有这个需求,所以就开源了。
这个项目迅速传播,一开始就有一百多万点击,现在累积已经破千万。虽然最终因为美领馆升级系统而失效,他也没再维护,但这个 " 短命项目 " 完成了自己的使命。
他把这两个项目都称作 " 做慈善 "。" 完全 nonprofit(非盈利),这种慈善项目让我感觉非常满足过。"
当被问及这种 " 对 impact(影响力)的追求 " 是何时萌芽的,他回忆起高三时一个 " 灵光一现 " 的想法:" 如果人生是场游戏,结算分数就是死后还有多少人记得你的名字。"
翁家翌称," 我觉得,你不可能对所有人都好,这个是很难做到的事情。但是,我可以尝试力所能及地对我身边的人好,做一些对大家有意义的事。"
07. 加入 OpenAI 之前,他已彻底想清楚:要工程,不要 " 炼丹 "
2020 年,翁家翌远程开始了 CMU 的硕士课程,因疫情一年都在家上网课。也正是在这段时期,他开始准备找工作。他一开始投了 18 家公司,仅收到 Google 和 AutoML(陈天奇团队)的 offer。" 我不想去 Google,在大厂当螺丝钉,然后做一些自己不是那么喜欢的事儿。"
在此之后,他继续投递并陆续拿到更多公司 offer,包括幻方量化、英伟达、TikTok,以及 Facebook AI Research(FAIR),其中幻方彼时正在筹建 AI Lab(后来成为 DeepSeek)。
他坦言,如果没有其他选择,可能就会加入幻方做强化学习 infra。但最终,他选择了 OpenAI。
这时距 OpenAI 尚未进入大众视野,ChatGPT 时刻还未来临。
他做出这个选择,更多是出于对强化学习和系统能力的认同。" 当时 OpenAI 和 DeepMind 是强化学习做得最好的两个 lab。"他想体验 " 世界最前沿的 research 是怎么做的 ",而不是留在几个 PhD 手搓的小作坊式科研环境里。他想学的是工业级科研的方法论。
他最终进入了 OpenAI 的强化学习组,由 John Schulman(OpenAI 联合创始人之一)亲自招入。" 是他亲自面试的我。我很感激他给了我机会。他离职那天,我难过了一整个下午,把电脑都关了。"
面试中,John Schulman 只给了两个人同一道工程题目,一个是翁家翌,另一个是 Codex 项目的关键成员 Andrey Mishchenko。" 那是一道端到端的题,很开放,他给了我 3 小时,我两个小时就写完了,现场还修好了一个 bug。"
他猜测,John 看重的是他的工程能力,"Schulman 说我的 GitHub 主页很‘漂亮’,他应该也认可我这个评价体系。"
谈及是否考虑过读 PhD,翁家翌说从未认真想过。"如果想进工业界,读 PhD 其实是在浪费生命。" 他说:" 你完全可以以 master 为跳板,然后来凑够 PhD 进工业界的标准。能够让对方挑选 master 的你,而不是另外一个 PhD。我觉得是想清楚差异化,这个是很关键的。"
PhD 的训练是让你擅长讲故事、写 paper、画图,而工业界要的是快速迭代和系统正确性。他说,自己的一位 OpenAI 同事也曾是强化学习方向的 PhD,后来开发了一个很出名的 RL 框架。这位同事总结过一句话,让他印象深刻:"教一个 researcher 如何做好 engineering,比教一个 engineer 如何做好 research 难得多。"
在翁家翌看来,研究的价值在于验证,而验证的关键是infrastructure。只要基础系统正确、超参合理、迭代效率高,就能快速筛选出有效想法。而 "idea is cheap",真正稀缺的是验证的效率和质量。
" 每家 infrastructure 都有不同程度的 bug,谁修的 bug 多,谁的模型性能就越好。" 他直言不讳地说,自己没兴趣再做调参式的研究了," 我更愿意卖铲子。"
翁家翌的想法是:把 infra 地基打好,让别人去玩,让别人去发 paper,也许还能带上挂名。
08.OpenAI 还 "Open" 吗?从 AGI 定义到组织焦虑,翁家翌给出答案
在翁家翌看来,"Agent" 和 " 强化学习的 post-training" 之间没有本质差别。" 它们本质上是一个东西,只是中间多了几步交互。" 他认为,在技术路径上,环境变化是主要区别,但并不构成新挑战。
谈及 AGI 的定义,他并不认同有统一标准。"OpenAI 内部你抓 15 个人,可能有 20 种定义 AGI 的方法。"他自己的定义是:" 如果它能完成 80%、90% 我认为有意义的任务,那它可能就是是 AGI 了。"
而当前他日常负责的代码上,尚无法放心交给模型修改。翁家翌称,"AI infra 的数据集覆盖极低,成本太高了,目前还触及不到这块。"
在被问及是否担忧自己被 AI 取代时,他认为每个人往往会过度反应," 但实际上不会这样的,它是个很慢的、循序渐进的过程。"
翁家翌自称热爱开源,但也非常清楚这背后的权衡。"你没法直接把最好的模型开源,因为公司要生存。" 开源与公司生存之间是不可避免的取舍,尤其在资源密集型的模型研发阶段,必须保障资本输血与商业可持续。
在他看来,OpenAI 的 "Open" 战略并不意味着对所有同行开放,而是尽可能以低门槛的方式让普通人用上强大工具。" 比如 ChatGPT 有免费版本,还有语音模式体验,这样可能是更有利于‘造福全人类’,而不是直接开源。你给出裸的模型权重,普通人也不知道怎么用。"
对于外界关于 "OpenAI 已不 Open" 的批评,他回应:理论上可以做到开源和社区反馈,但现实很难。你一开源,别人就立刻闭源压你,导致你融不到钱,没法继续实验。
他也坦言,如果公司资源不受限," 我当然会很开心地开源 RL Infra 团队这两三年的成果。
被问到 OpenAI 实现 AGI 的最大挑战,他用一个词概括:" 执行。" 在他看来," 只要组织能在正确方向上稳定执行,就足够了。" 他坦言," 就比如说差点倒闭那次,只要别再那样就好。"
对于 Sam Altman 那场风波,他回忆称:" 董事会对 Sam 的不信任投票,把他赶了出去。" 但底层员工的反应是 " 震惊 ",因为对他们来说,董事会之前对内部几乎没有透明度," 我们也不知道这个决策是怎么做的 "。
他还提到,OpenAI 最终支持 Sam 回归,是因为 "纯技术出身的人并不一定能撑起整个 AI 公司"。" 你需要一个能搞钱、搞算力、搞资源的人,不是只有很好的研究经验就行。"
他将 Sam 抽象成一个 "identity(精神符号)",并说:" 如果你试图用 AI 来替代这个 identity,别人对它的认同就会缺失。"
他并不避讳团队流失的问题。对于人才流动,他的态度是:" 一个健康的组织,所有人都是可以被替代的。" 只要有造血能力,培养新人,OpenAI 就能持续运转。
但他也承认,OpenAI 并非在所有关键指标上都处于全球领先,比如在 infra 迭代速度上。
" 比如 DeepSeek 那波声称迭代很快,这确实让内部很多人警觉。" 他提到,这也是重构一版 Infra 的原因,Infra 的迭代是 OpenAI 生死线," 我们早就不做为了刷榜而做的事了。"
他还解释说,大公司结构复杂、use case(应用场景)众多,难免影响效率。相比之下," 一个初创团队集中做一个方向,斜率肯定高。" 他补充道:" 所有公司做大了都会变慢,看哪个‘没那么差’而已。"
他也提出一个设想:一个拥有无限上下文记忆能力的 AI Agent,或许才是最合适的 CEO。
现在的组织臃肿、context 共享不一致,是人类无法克服的限制,但 AI 可以。这样的 Agent 未来能解决管理的核心问题,承担起决策者角色。他说:"人类的 context 是有限的,但 AI 可以。"
09. 如果 AI 真的能预测未来,人类该不该按下暂停键
在这段对话的最后,话题转向了一个更抽象的问题:如果让 AI 去解决一个世界难题,翁家翌最想做的是什么。他给出的答案是如何预测未来。
他坦言,"所有的东西都是可以被预测的,所以理论上它是可以用 AI 解决的。"
正因为如此,他反而认为," 如果你能拿到一个能够预测未来的机器的话,那么对个人而言,其实是一个灾难,我觉得这会导致所有的价值体系的崩塌。"
他目前采取的应对方式,是 " 忘掉这一切 ",假装不知道世界是否确定,只专注于当下的体验与选择。
他也提出了一种解释:时间或许并非线性流动。未来的我,帮助过去的我来完成某些决策。
当话题回到现实,他对创业与未来的态度并不明朗。他并不否认创业的可能性,但明确称目前还没有看到足够好的想法,也认为 OpenAI 依然是一个值得留下的地方。
他更偏好有真实需求的产品,正如他过去做过的 " 天授 " 和 " 退学 online"。在他看来," 技术不重要,重要的是就是抓住需求。"
谈到更长远的未来,他并没有给自己设定明确的终点。他希望十年后的自己,能够 " 做当时想做的事 ",有足够的资源与足够的能力。他仍然选择继续 "投资未来",让他有选择的权利。
在播客的最后,翁家翌留下了一句答案。他坦言," 我曾经一度想通了我自己想要什么,但是我其实还是没有那么想通,这个问题值得一生去思考。"


