经济观察报 社论 陈沛 / 文自从 OpenAI 推出最新的高级推理模型 o1,已经过去了 10 天左右的时间。
模型刚推出的时候,很多率先使用的用户会觉得这个预览版模型(o1-preview)的纯文本模式和类似规划代理的生成效果略感平淡,就像我在前一篇专栏中写过的情况。
也有一些研究者试图从 OpenAI 介绍的内容中针对自我对弈强化学习、数据合成等进行分析,以突出这个模型的特别提升之处。
在此期间,各种说法林林总总,不一而足。我则认为值得进一步分析的是随后很快出现的 o1 模型开源复现版,以及最新的智商测试结果。
一周内出现 o1 开源复现效果
美国 SambaNova 公司的 Kaizhao Liang 在 o1 模型发布一周内,就在 HuggingFace 上推出了一个类似 o1 模型思考过程的开源平替版—— Llama3.1-Instruct-O1。
这个开源平替版用到了 Llama-3.1-Instruct 模型,用户可以选择 405B、70B、8B 三个开源模型版本,再设置思考步骤的限制(从 1 至 100 之间),然后就可以实现类似 o1 模型的思考过程。
实现原理非常清楚,作者给 Llama-3.1-Instruct 开源模型增加了额外的系统提示词,共包括八个阶段,要求模型仔细阅读问题,按照思考步骤数量设置计数器,并要求模型进行自我反思,完成全部解答阶段后进行重新组织,形成最终输出答案。
客观来看,这个方法比较讨巧,直接借用成熟的提示框架对开源模型的输出结果进行限定,以生成类似的思考效果,却不涉及上述的自我对弈强化学习过程。不过,这想必也不是开源复现版作者的本意。因为 SambaNova 作为 AI 推理加速服务商,更多是想展示它们在多步推理中的加速效果,而非高级推理能力。
测试发现 o1 模型智商超群
如何更加直观体现 o1 模型的推理能力,有人想到了进行智商测试。美国 Tracking AI 负责人 Maxim Lott 使用了门萨智商测试(Mensa Norway)对 12 个主流模型进行了测试,定期更新测试结果。
在最近的测试结果中,o1 模型在 35 道题中答对了 25 道,智商达到 121,是所有模型中唯一一个智商超过平均值(100)的模型。其它模型的智商多数普遍在 80 至 90 左右。
但是必须看到,由于这 12 个被测模型中既包括 o1 这样的纯文本模型,也包括 GPT-4o、Gemini Advanced、Claude-3 Opus 等多模态模型,而 35 道智商测试题中又有相当部分题目是复杂图形推理题,因此测试者需要把题目和选项转成非常全面的文本描述输入给纯文本模型,这个人工转换过程或多或少会让纯文本模型在测试结果上获得一定优势。
当然,就算排除掉这一点优势因素,o1 模型在智商测试中所体现出来的复杂推理能力依然处于明显的领先位置。
OpenAI 对 o1 模型的阶段定位
OpenAI 的 CEO Sam Altman 在最近的表态中,将 o1 模型比喻成过去 GPT 系列模型的 GPT-2,这似乎侧面印证了 o1 模型虽然表现出了显著的能力提升,但同时也存在着明显的缺点。
回顾过去,在发展 GPT 系列模型时,也是一直演进到 GPT-3.5 的阶段,才推出了 ChatGPT 引发了巨大关注。
展望后续的发展路线,如今 o1 模型已经来到了 OpenAI 之前提出 5 层通用人工智能的第 2 层(推理者,Reasoner),并将继续向之后第 3 层至第 5 层的智能代理(Agent)、创新者(Innovator)和组织者(Organizer)持续攀登。
登录后才可以发布评论哦
打开小程序可以发布评论哦