全天候科技 08-04
揭秘:OpenAI是如何发展出推理模型的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当全世界都在为 ChatGPT 的横空出世而狂欢时,你可能不知道,这只是 OpenAI 一次 " 无心插柳 " 的惊喜。科技媒体 Techcrunch 一篇最新的深度文章揭示了,OpenAI 从数学竞赛走向 " 通用 AI 智能体 "(AI Agents)的宏大愿景。这背后,是一个长达数年的深思熟虑的布局,以及其对 AI" 推理 " 能力的终极探索。

意外的起点:数学

很多人以为 OpenAI 的成功故事是从 ChatGPT 开始的,但真正的颠覆性力量,却源于一个看似与大众应用相去较远的地方——数学。

2022 年,当研究员亨特 · 莱特曼(Hunter Lightman)加入 OpenAI 时,他的同事们正在为 ChatGPT 的发布而忙碌。这款产品后来火遍全球,成为现象级的消费应用。但与此同时,莱特曼却在一个不起眼的团队 "MathGen" 里,默默地教 AI 模型如何解答高中数学竞赛题。

" 我们当时正努力让模型在数学推理上做得更好 ",Lightman 回忆道。而这场看似偏离主线的探索,恰恰是 OpenAI 发展推理模型的起点。

为什么是数学?因为数学是纯粹逻辑和推理的试金石。如果一个模型能真正理解并解决复杂的数学问题,意味着它开始具备了初步的推理能力。

回过头看,ChatGPT 的成功更像一个 " 美丽的意外 " ——用内部的话说,这是一个低调的研究预览版,却意外引爆了消费市场。

但 OpenAI 的 CEO 山姆 · 奥特曼(Sam Altman)的目光,早已投向了更远的地方。在 2023 年的首届开发者大会上,他清晰地描绘了未来:

最终,你只需告诉计算机你需要什么,它就会为你完成所有这些任务。这些能力,在 AI 领域通常被称为智能体(Agents)。其带来的好处将是巨大的。

而那项在当年略显 " 低调 " 的工作,成果斐然。近期,OpenAI 的一个模型在国际数学奥林匹克竞赛(IMO)中摘得金牌,这是全球顶尖高中生的智慧竞技场。

OpenAI 坚信,这种在数学领域磨练出的推理能力,完全可以迁移到其他领域,并最终驱动他们梦寐以求的通用 AI 智能体。

" 草莓 " 计划:引爆推理革命的关键突破

早期的 GPT 模型擅长处理文本,但在基础数学面前却常常 " 犯糊涂 "。

从基础的语言处理到复杂的逻辑推理,OpenAI 是如何跨越这道鸿沟的?转机发生在 2023 年,OpenAI 通过一种创新的方法,实现了推理能力的飞跃。这一突破最初的内部代号为 "Q*",后又被称为 "Strawberry"(草莓)。

其核心,是将三种技术进行了前所未有的结合:

大语言模型(LLM): 提供海量的知识基础和语言能力。

强化学习(RL): 在模拟环境中,通过 " 奖惩 " 机制(即反馈答案是否正确)来训练模型做出更优选择。这与当年 AlphaGo 击败李世石的技术同源。

测试时计算(Test-time computation): 给予模型更多的时间和算力去 " 思考 ",在给出最终答案前,反复规划、验证和检查自己的步骤。

这个组合拳催生了一种全新的方法——" 思考链 "(Chain-of-Thought, CoT)。模型不再是直接给出答案,而是像人一样,会展现出完整的解题思路。研究员埃尔 · 基什基(El Kishky)在描述当时的场景时难掩兴奋:

我能看到模型开始推理了。它会注意到错误并回溯,它会感到沮丧。这真的就像在阅读一个人的思想。

这项突破直接促成了 2024 年秋天o1 推理模型的问世。o1 的出现震惊了世界,也让其背后的 21 名核心研究员成为了硅谷最炙手可热的人才。Meta 的扎克伯格不惜开出上亿美元的薪酬包,挖走了其中五位,以组建其专注于超级智能的新部门。

探索 AI" 推理 " 的本质

AI 真的在 " 推理 " 吗?还是只是更高级的模仿?

面对这个问题,OpenAI 的研究员们表现得相当务实。El Kishky 从计算机科学的角度解释:" 我们正在教模型如何有效地消耗算力来得到答案。如果这样定义,那它就是推理。"

另一位研究员 Lightman 则更关注结果:" 如果模型能完成困难的任务,那么它就在进行某种必要的、近似于推理的过程。我们可以称之为推理,但这只是为了创造出强大、有用工具的一种说法。"

非营利组织 AI2 的研究员 Nathan Lambert 用了一个绝妙的比喻:AI 推理之于人类思考,就像飞机之于鸟类飞行。 飞机并非通过模仿鸟类扇动翅膀来实现飞行,但它同样征服了天空。AI 的 " 推理 " 机制与人脑不同,但这并不妨碍它实现相似甚至更强大的结果。

这种对终极目标的专注,而非拘泥于形式,恰恰是 OpenAI 文化的核心。据前员工透露,公司 " 一切研究都是自下而上的 ",只要团队能证明其想法的突破性,公司就会倾斜宝贵的 GPU 和人才资源。正是这种对 AGI(通用人工智能)使命的执着,而非短期产品利益的追求,才让 OpenAI 敢于在推理模型上进行如此巨大的投入,并最终抢占先机。

下一个前沿:从客观编码到主观任务

如今,AI 智能体在一些定义明确、可验证的领域已经初显身手,例如帮助程序员完成编码任务。但当人们尝试让它处理更复杂、更主观的任务,比如 " 帮我找一个性价比最高的长期停车位 " 或 " 帮我规划一次完美的家庭旅行 " 时,它们往往会犯一些低级错误,或者耗时过长。

这背后的核心瓶颈是什么?Lightman 一针见血地指出:" 和机器学习中的许多问题一样,这是一个数据问题。"

如何训练模型处理那些没有标准答案、更偏主观的任务,是当前研究的前沿。OpenAI 研究员 Noam Brown 透露,他们已经掌握了新的通用强化学习技术,可以训练模型学习那些不易验证的技能,IMO 金牌模型就是基于此诞生的。该模型能生成多个 " 智能体分身 ",同时探索不同解题路径,最后选出最优解。

这预示着 AI 的未来演进方向:从单一模型到多智能体协作,从处理客观事实到理解主观意图。

OpenAI 的终极蓝图,是打造一个能为你处理互联网上任何事情、并能心领神会你的偏好的超级智能体。这与今天的 ChatGPT 形态迥异,但其所有的研究,都坚定地指向这个方向。

毫无疑问,OpenAI 曾是 AI 行业的绝对引领者,但如今,它面临着来自 Google、Anthropic、xAI 和 Meta 等一众强劲对手的围剿。问题已经不再是 OpenAI 能否实现其 " 智能体未来 ",而是它能否在被对手超越之前,率先抵达终点。这场关乎未来的竞赛,才刚刚开始。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数学 草莓 数学竞赛 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论