钛媒体 08-12
GPT-5亮相,“博士专家”是不是真的Agent?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 极新,作者 | 王娴

" 不是巨人迈步,也是一脚稳落的新台阶。"

OpenAI CEO Sam Altman 在发布会上将 GPT-5 形容为 "一位随时待命的博士级专家",并提出 " 按需生成软件 " 将成为这一代模型的核心能力。

或许 GPT-5 不再只是更强的语言模型,而是迈向通用 Agent 的关键节点。

技术新亮点

尽管 GPT-5 的微调能力尚未达到外界对其 " 通用智能 " 层面的高期待,但在性能稳定性、推理深度以及工具调用等方面,仍展现出值得肯定的进步。

关键词一:模型矩阵

OpenAI 不再只提供单一模型,而是推出了 GPT-5 Standard、GPT-5 Mini 和 GPT-5 Nano 等多个版本,针对不同用户场景分别优化 。

在架构上,GPT-5 采用了统一的多模型系统:高效基础模型 + 深度推理模块 + 实时路由。实时路由器会根据用户查询的复杂度,自动判定调用快速响应的模型。这种动态调度意味着用户不必手动在不同模型之间切换,GPT-5 能自动选择简洁回答或深入推理,提供解答 。一位 OpenAI 负责人指出,目标是在简化用户体验的同时保证一致性,过去 GPT-4 与 DALL-E、Whisper 等模型分立的局面将被一个 " 一站式 " 的 GPT-5 所取代 。

且其价格穿透力,被誉为 " 价格屠夫 ",据统计仅相当于 Anthropic 最新 Claude Opus 4.1 模型的十五分之一  。新一轮普惠化竞赛或将由此开始。

关键词二:上下文窗口的巨幅提升

GPT-5 支持高达 400,000 个 token 的上下文长度,其中输入 272,000 个、输出 128,000 个 token 。这远超此前 GPT-4 默认的 8K-32K 窗口,甚至超过 Gemini 据传的 100 万 token 上下文 。超长上下文让 GPT-5 可处理超长文档和多轮复杂对话,执行跨文件、跨会话的推理任务而游刃有余。

同时 GPT-5 具备完整的多模态能力:文字、图像、语音甚至可能包括视频,都能在同一接口下被理解和生成 。用户不再需要在不同 AI 服务之间来回切换,一个 GPT-5 即可 " 通吃 " 视觉与听觉信息。

关键词三:更智能的推理策略

除了 " 看得见 " 的能力提升,GPT-5 在隐性的推理策略上也更智能。

OpenAI 介绍 GPT-5 能根据需求调整推理强度:简单任务快速出结果,遇到复杂问题则自主进入 " 深思考 " 模式,提高思考深度 。例如在代码调试场景下,GPT-5 可以先尝试快速修复,如不奏效再逐步加深分析,避免每次都全功率运行浪费算力。这种自适应的智能调度归功于内置的路由模块和链式推理优化,让模型懂得权衡速度与精度。再结合 OpenAI 宣称的幻觉率降低(错误生成降低 45% )以及对指令的更高忠实度,GPT-5 无疑将 AI 助手的可靠性推上了新的台阶。

距真正的AI  Agent 还有多远?

发布会上,Altman 虽然淡化了 AGI 概念,但行业共识是:GPT-5 已比肩初级 Agent 雏形——它具备了链式思考、多步执行和工具调用等 Agent 关键要素。

然而,要判断 GPT-5 是否真正成为智能 Agent,我们需要审视其能力边界和短板。

从能力上看,GPT-5 较前代在自主性和持续推理方面有明显进步。OpenAI 专门针对模型的自主决策、协作沟通和测试能力进行了微调训练,使 GPT-5 在执行复杂任务时更加主动。以编码助手为例,GPT-5 可以连续工作数分钟,调用多种工具来完成一个复杂编程指令,期间会主动输出计划、步骤和状态更新," 一 GPT 一人一公司 ",指日可待。

过去模型往往一问一答,被动等待指令,而 GPT-5 在工具调用间隙会提出下一步建议,无需用户事无巨细地确认每一步 。这种近似 Agent 的链式思维和自主执行,使其在复杂场景下的表现大幅提升。据测试,GPT-5 的深度推理模块(GPT-5-thinking)可用更少的 tokens 完成复杂问题,比前代模型减少 50%-80% 的步骤开销。这表明 GPT-5 已经初步具备了长链任务规划和优化执行的能力。

更重要的是工具使用能力的飞跃。OpenAI 报告称,GPT-5 在严格评测的多工具使用基准 τ ^2-bench 上得分高达 97%,而此前所有模型均未超过 49%。GPT-5 能可靠地串联多个操作步骤完成真实世界任务。例如在客户服务场景,GPT-5 可以一边与用户对话,一边调用数据库查询,再根据实时状态采取后续行动,其对工具指令的遵循度和出错处理能力均创下纪录。这些结果证明,GPT-5 已掌握了相当程度的Agent 式工具调度与环境交互本领,朝着通用智能体又迈进一步。

然而,GPT-5 离真正的自主智能 Agent 仍有关键差距。

OpenAI 自己也承认,GPT-5 在持久记忆、自主性和跨任务适应性上依然存在明显限制 。它无法像人一样持续积累长期记忆——一旦超出 400K 上下文,它对更久远交互的 " 记忆 " 依然会丢失,需要借助外部数据库或记忆模块。

在自主性上,虽然 GPT-5 更主动,但终究还是遵循人类提示触发,尚不能自主产生新目标或自行启动任务。它执行多步流程时虽更流畅,但对未明确指示的新情景,缺乏真正的创造性应对,这在模拟真人智能方面仍有差距。这从一些测试可以看出端倪:在被誉为 AGI 终极挑战的 Arc Prize 测试中,GPT-5 表现远不及对手 Grok-4,甚至 " 被人类专家轻松甄别 "。OpenAI 发言人也强调,GPT-5 的新功能主要是现有功能改进,并未彻底解决自主性难题 。

不过,可以确定的是:Agent 时代,GPT-5 也许只差临门一脚。

OpenAI 的下一战

OpenAI 此次五模齐发的背后,已经折射出其构建 "AI 操作系统 " 式平台架构的野心。

GPT-5 不再是单一模型,而是一个由多种规格协同组成的 " 模型矩阵 ",可根据任务复杂度动态调用 " 深度思考 " 或高效轻量模型。"GPT-5 大赌注在于合一。"Sam Altman 指出,GPT-5 实现了从 GPT-4 手动切换到系统自动路由的架构升级,真正做到 " 合一 "。同时推出的 GPT-5-mini 和 GPT-5-nano 以更低成本提供 400K 上下文和多模态能力,OpenAI 试图通过高低搭配,覆盖全场景智能需求。

如果说多型号矩阵是 "AI 操作系统 " 的内核,那么 OpenAI 正在搭建的周边生态则是操作系统的 " 框架和接口 "。其 Assistants API(助理接口)让开发者能够构建定制的 GPT 助手,将模型变成可嵌入任意应用的智能 Agent;ChatGPT 插件充当扩展工具,为 GPT 提供调用外部服务和实时数据的能力,如同 AI 世界的应用商店;而定制模型接口则意味着开发者可以接入自有模型或定制版本,与 OpenAI 平台打通。

Sam Altman 的愿景更加直白。他曾表示 OpenAI 的目标不是成为某个应用上的赢家,而是要 "成为其他一切构建其上的那一层"  。换言之,OpenAI 希望充当AI时代的底层平台,让别的应用都建立在自己的 "AI 操作系统 " 之上

为此,OpenAI 正不断丰富平台组件:从最新的 GPT-5 模型矩阵,到插件体系、助理 API,再到开放模型发布。

一方面,ChatGPT 已从最初的对话机器人跃升为集成搜索引擎、插件工具等于一身的 "AI 万能应用 " ;另一方面,OpenAI 开始松动封闭策略,首度开源高性能模型,发布了自 GPT-2 以来首批开放权重的大模型 gpt-oss 系列,允许开发者免费下载、定制和离线运行  。

这被视为 OpenAI 向构建生态迈出的关键一步:通过 Apache 2.0 开源许可证将自家模型 " 交到更多人手中 " ,以吸引开发者深度参与,夯实其平台地基。

历史的回响:封闭崛起还是碎片开放

各家大模型之争,让人不由想起科技史上的多次 "宿命对决"。

智能手机时代,苹果凭借封闭的软硬件一体化为用户带来极佳体验和高粘性生态,建立起牢固的盈利壁垒;而谷歌主导的 Android 开放授权给众多厂商,赢得了市场占有率但也付出碎片化和生态良莠不齐的代价。

类似的剧情正投射到 AI 领域:OpenAI 模式颇似当年的苹果,通过性能拔尖的 GPT-5 模型和自有平台把关用户体验,以封闭换取质量和商业回报;Anthropic、Meta 等提倡的开源开放更像 Android 阵营,意图联合多数、快速铺开,让 "AI 大国民 " 遍地开花,但同时如何治理众多版本和标准成为挑战。

过往多次经验显示,封闭生态往往在早期凭借卓越体验迅速崛起,而开放生态则凭借规模和低门槛后来居上。AI 操作系统之争会重演这一幕吗?抑或会走出第三条道路?这是大家十分关心的问题。

云计算领域,亚马逊 AWS 以 IaaS 起家,但真正让其难以撼动的是一系列 PaaS 产品:开发者一旦使用了 AWS 提供的数据库、消息队列、函数计算等托管服务,就被牢牢绑定在 AWS 生态中。对照来看,OpenAI 显然也在从 " 提供模型算力 " 向 " 提供完整平台服务 " 演进。

当年有人将 AWS 称为 " 新操作系统 ",因为应用直接基于其 API 构建而不感知底层服务器;今天,OpenAI 何尝不是在打造 AI 时代的新操作系统?开发者调用的是 OpenAI 的接口,背后用的模型、算力甚至插件生态都由 OpenAI 打包提供。如果说 AWS 垄断了云端基础设施接口,那么 OpenAI 正尝试垄断 AI 智能层接口。

值得注意的是,AWS 生态的壮大并非依靠开源,而是靠易用性与先发优势形成事实标准。OpenAI 的策略与此有异曲同工之妙:抢先占领市场心智,让 GPT API 和插件成为开发者默认选项,即便后来的竞争对手开放源码或降价,已难以扳动其生态地位。

当然,历史类比并非预言。移动生态最终是双雄并立,云计算领域后来者微软 Azure、谷歌云也各有一席之地。

当下 AI 平台大战格局更为复杂:巨头结盟与竞争交织,开放与封闭界限日趋模糊。或许未来的 AI 世界,不会简单复制某一过往战役的结局,但商业与技术演进的底层逻辑却惊人相似:用户体验、开发者生态、标准控制,这三大要素始终决定着平台战争的走向。

OpenAI 究竟是在打造一个人工智能的 " 操作系统 ",还是野心勃勃地想要定义整个 AI 技术栈、云服务乃至应用范式的未来?这场 " 模型即平台,接口即边界 " 的群雄逐鹿才刚刚开始,答案有待时间去揭晓,悬念也留给我们所有人去思考  。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论