在下一代大模型 GPT-5 备受期待之际,一项名为 " 通用验证器 " 的新技术正浮出水面,揭示了 OpenAI 可能用于拉开竞争差距的 " 秘密武器 "。
OpenAI 的 " 通用验证器 " 或将直接影响 GPT-5 模型的市场竞争力,8 月 4 日据科技媒体 The Information 援引知情人士消息报道,这项技术已被应用于 GPT-5 的开发过程中。
该技术的核心机制,被比作一场 " 证明者 - 验证者游戏 "。简而言之,它让一个 AI 模型扮演 " 验证者 " 的角色,去检查和评判另一个 " 证明者 " 模型生成的答案。通过这种内部对抗和反馈,系统性地提升模型的输出质量。这一自动化流程旨在解决强化学习(RL)在创意写作等主观领域或数学证明等复杂领域难以验证的瓶颈。
OpenAI 内部研究人员已在社交平台 X 上间接证实了相关方法的有效性。研究员 Noam Brown 表示,这些技术是 " 通用的 ",能让大模型 " 在难以验证的任务上表现得更好 "。这也标志着 OpenAI 正试图攻克 AI 商业化应用中的核心痛点——可信度。
" 证明者 - 验证者 " 的对抗游戏
" 通用验证器 " 的技术细节,最早在 OpenAI 于 2024 年 7 月发表的一篇题为《证明者 - 验证者游戏提升大语言模型可读性》的论文中被阐述。该方法构建了一个精巧的内部对抗训练框架,背后是一种 " 证明者 - 验证者博弈 " 模型。
该框架中 " 证明者和验证者 " 两种角色,如同让一个模型内部分裂出两个 " 人格 ":
" 靠谱的证明者 "负责给出正确的解题步骤,并让验证者认可。
" 狡猾的证明者 "故意给出错误步骤,并试图欺骗验证者。
小型 " 验证者 "负责准确区分正确与错误方案。
在训练过程中," 验证者 " 模型通过学习区分正确与错误的解决方案,不断提升其 " 打假 " 能力。同时," 证明者 " 模型则根据 " 验证者 " 的反馈进行优化,学习如何生成更具说服力且不易被伪造的正确答案。论文明确指出,该验证器规模足够小,适合大规模部署,并 " 为未来的 GPT 部署而设计 "。
有研究人员向 The Information 表示,这种机制类似于生成对抗网络(GANs),即通过一个 " 判别器 " 来区分真实数据与 AI 生成的数据,从而倒逼 " 生成器 " 不断进步。
超级对齐团队的 " 技术遗产 "?
值得注意的是,这项关键技术被指为 OpenAI 前 " 超级对齐 " 团队的 " 技术遗产 "。发表《证明者 - 验证者游戏提升大语言模型可读性》这篇论文的六位作者中,目前仅有 Yining Chen 和 Nat McAleese 两人仍留在 OpenAI。
据悉,该团队由公司联合创始人 Ilya Sutskever 主导成立,旨在研究如何控制未来可能出现的超级智能,但在 Sutskever 和另一位负责人 Jan Leike 离职后被迅速解散。
这为这项技术的应用增添了一层复杂的公司内部动态背景。尽管团队已不复存在,但其技术成果显然已被整合进 OpenAI 的核心产品研发路径中,用于解决当前模型的对齐和可靠性问题。
GPT-5 期望高企
这项技术突破与备受瞩目的 GPT-5 直接相关。社交媒体上的信息显示,有观点认为,曾在 GPT-4 代码辅助功能中进行试点的模型自我批判系统,如今已被正式整合进 GPT-5 这个 " 下一个主线模型 " 中。这使得外界对 GPT-5 的期望达到了新的高度。
OpenAI 首席执行官 Sam Altman 本人也在近期一档播客节目中为 GPT-5 造势,称其 " 在几乎所有方面都比我们更聪明 ",进一步加剧了市场的期待。与此同时,包括 xAI 和谷歌在内的竞争对手也已将强化学习作为提升模型能力的关键技术路径并加倍投入。在此背景下," 通用验证器 " 不仅是 OpenAI 的一项技术创新,更被视为其在白热化的人工智能竞赛中保持领先优势的核心资产,其最终效果将在 GPT-5 发布后接受市场的检验。
突破与挑战并存
" 通用验证器 " 最重要的价值在于其 " 通用性 "。据报道,这项技术不仅帮助 OpenAI 模型在可轻松验证答案对错的软件编程等领域取得进步,也在创意写作等更主观的领域展现了改进。这意味着 AI 的能力正在从客观领域向主观领域渗透。
例如,在复杂的数学证明中,验证器可以确保每一步都遵循形式逻辑规则且相互一致,而不仅仅是检查最终答案。据报道,OpenAI 模型最近在国际数学奥林匹克竞赛中取得的突破性成绩,很可能就得益于包括 " 通用验证器 " 在内的技术。OpenAI 高级研究员 Alexander Wei 在社交平台 X 上称,公司所使用的强化学习方法是 " 通用目的 " 的,暗示其可以验证更主观类别的答案质量。
然而,通往技术飞跃的道路并非坦途。据媒体早前爆料,GPT-5 的研发面临着严峻挑战,包括高质量训练数据的日益稀缺,以及大规模预训练带来的性能提升收益正在下降。此外,模型从内部测试到面向公众部署后的性能衰减问题依然存在,例如内部测试中表现强大的 "o3" 模型,在实际应用中性能便出现大幅下降。这些因素都为 GPT-5 最终能否实现预期的突破,带来了不确定性。
登录后才可以发布评论哦
打开小程序可以发布评论哦