元力社 04-15
OpenAI深夜发布GPT-4.1系列模型,支持百万Token上下文编程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

4 月 15 日凌晨,OpenAI 正式在 API 中推出全新的 GPT-4.1 系列模型。此次发布包括三款新模型,分别是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三个新成员。其中,OpenAI 声称 GPT-4.1 nano 是其迄今 " 最快、最便宜 " 的模型。

这些模型在各项指标上全面优于 GPT-4o 和 GPT-4o mini,特别是在编程、指令遵循以及上下文理解方面表现突出。

它们还支持更长的上下文窗口,最大可达 100 万个 Token。它们的知识更新日期为 2024 年 6 月。

以下为三款新模型的主要特点和应用场景:

GPT-4.1:OpenAI 的旗舰级模型,擅长编码、指令遵循和长上下文理解,适用于处理复杂任务。

GPT-4.1 mini:OpenAI 的高效小型模型,在多个基准测试中表现超越 GPT-4o,大幅减少延迟并降低 83% 成本,适合对性能要求高的场景。

GPT-4.1 nano:OpenAI 首个超小型模型,速度最快、成本最低,支持 100 万 Token 的上下文窗口,适用于低延迟任务,如分类和自动补全。

不过,需要注意的是:GPT-4.1 仅通过 API 提供。而在   ChatGPT   中,OpenAI 已将许多 GPT-4.1 在指令遵循、编程和智能方面的改进逐步融入了最新版本的 GPT-4o,未来还会继续整合更多。

GPT-4.1 系列模型

行业标准评估表现

编程能力:在 SWE-bench Verified 编程基准上得分 54.6%,相较 GPT-4o 提升了 21.4 个百分点,相较 GPT-4.5 提升了 26.6 个百分点。

指令遵循能力:在 Scale 的 MultiChallenge 基准上得分 38.3%,比 GPT-4o 提升 10.5 个百分点。

长上下文理解能力:在 Video-MME 的无字幕长视频理解类别中得分 72.0%,比 GPT-4o 提升 6.7 个百分点。

OpenAI 表示,尽管基准测试数据提供了有价值的参考,但该公司在训练这些模型时,对它们进行了有针对性的优化,以支持开发者社区最关心的实际任务。

因此,GPT-4.1 系列模型以更低的成本提供更优越的性能,OpenAI 在降低延迟和提高吞吐量、准确率方面也都进行了优化。

按延迟划分

GPT-4.1 系列智能表现

GPT-4.1 mini 在小模型性能方面取得了重大突破,在许多基准测试中超过 GPT-4o。在智能评估中,它的表现不输 GPT-4o,同时将延迟降低近一半,成本降低 83%。

OpenAI 宣称,GPT-4.1 nano 是其迄今 " 最快、最便宜 " 的模型,专为低延迟场景设计,非常适合用于分类、自动补全等轻量高频任务。它具备百万 Token 的上下文窗口,并在多项指标上取得好成绩:

MMLU:80.1%

GPQA:50.3%

Aider polyglot(多语言编程):9.8%(高于 GPT-4o mini)

这些在指令遵循与长上下文理解方面的进步,使得 GPT-4.1 系列模型在驱动 "AI 智能体(即能代表用户独立完成任务的系统)" 方面有了很大提升。当与 Responses API 等基础组件结合时,开发者现在可以构建更可靠实用的智能体系统,可以帮助自动化软件工程任务、从大文档中提炼摘要以及更高效地处理客户请求等。

与此同时,GPT-4.5 Preview 也将退役,因为 GPT-4.1 在多数关键能力上以更低成本和延迟实现了相近甚至更优的性能。

OpenAI 从编程、指令、上下文支持等多个维度方面,展示 GPT-4.1 系列模型的能力。

01 编程能力优于 GPT-4o

GPT ‑ 4.1 在多种编程任务中的表现明显优于 GPT ‑ 4o,包括能够以智能体方式独立完成编程任务、前端开发、更少的无关修改、更可靠地遵循 diff 格式、保持工具使用的一致性等方面。

在 SWE-bench Verified(衡量真实世界软件工程技能的基准测试)中,GPT ‑ 4.1 完成了 54.6% 的任务,而 GPT ‑ 4o(2024-11-20 版本)仅完成了 33.2%。这反映出模型在浏览代码库、完成任务,以及生成既能运行又能通过测试的代码方面能力的提升。

图注:在 SWE-bench Verified 测试中,模型会被提供一个代码库和一个问题描述,并需要生成一个补丁来解决该问题

对于希望通过 API 编辑大型文件的开发者来说,GPT ‑ 4.1 在多种格式的代码差异(code diff)处理上表现更加可靠。在 Aider 的 polyglot diff 基准测试中,GPT ‑ 4.1 的得分是 GPT ‑ 4o 的两倍以上,并且比 GPT ‑ 4.5 高出 8 个百分点。

OpenAI 对 GPT ‑ 4.1 进行了特别训练,使其能更可靠地遵循 diff 格式,从而让开发者仅输出修改的代码行,而非重写整个文件,进而节省成本与延迟。

对于更偏好重写整个文件的开发者,OpenAI 已将 GPT ‑ 4.1 的输出 Token 上限提升至 32,768(相比之下,GPT ‑ 4o 为 16,384)。

图注:在 Aider 的 polyglot 基准测试中,模型需通过编辑源文件来完成来自 Exercism 的编程练习,并允许重试一次。其中,"whole" 格式要求模型重写整个文件,这种方式可能较慢且成本较高。而 "diff" 格式则要求模型生成一系列搜索 / 替换块,仅修改文件中需要变动的部分。

GPT ‑ 4.1 在前端开发方面也相较 GPT ‑ 4o 有了显著提升,能够构建出功能更完善、界面更美观的网页应用。在一对一的对比测试中,有偿人工评审在 80% 的情况下更倾向于 GPT ‑ 4.1 所生成的网站,优于 GPT ‑ 4o。

02. 指令遵循

OpenAI 开发了一个内部评估系统,用于跟踪 GPT-4.1 系列模型在多个维度和几个关键类别中的表现,包括:

格式遵循:提供指定模型响应格式的指令,例如 XML、YAML、Markdown 等。

负面指令:指定模型应避免的行为。(例如:" 不要要求用户联系支持 ")

顺序指令:提供一组需要按特定顺序执行的指令。(例如:" 首先询问用户的名字,然后询问他们的电子邮件地址 ")

内容要求:输出包含特定信息的内容。(例如:" 编写营养计划时,始终包括蛋白质的含量 ")

排序:按照特定方式对输出进行排序。(例如:" 按人口数量排序响应 ")

预防幻觉:指示模型在无法提供所请求信息或请求不属于某一特定类别时说 " 我不知道 " 或类似的回答。(例如:" 如果你不知道答案,提供支持联系邮箱 ")

这些类别是 OpenAI 根据开发者的反馈而设定的,他们认为这些是模型在指令遵循方面最重要的问题。在每个类别中,OpenAI 将提示分为简单、中等和困难的级别。特别是在困难级别的提示上,GPT ‑ 4.1 相较于 GPT ‑ 4o 有较大提升。

图注:OpenAI 的内部指令遵循评估基于真实开发者的使用案例和反馈,涵盖了各种复杂度的任务,并结合了关于格式、冗长程度、长度等方面的指令

多轮指令遵循对许多开发者来说至关重要,因为模型需要能够在对话中保持连贯性,并记住用户之前告诉它的信息。OpenAI 已训练 GPT ‑ 4.1 更好地从对话的历史消息中提取信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有用指标,GPT ‑ 4.1 在该测试中比 GPT ‑ 4o 提高了 10.5% 的绝对分数。

图注:在 MultiChallenge 中,模型需要在多轮对话中挑战,正确使用来自前一条消息的四种信息类型

GPT ‑ 4.1 在 IFEval 上的得分为 87.4%,而 GPT ‑ 4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示,例如,指定内容长度或避免使用某些术语或格式。

图注:在 IFEval 测试中,模型必须生成符合各种指令要求的回答

03 百万 Token 长上下文处理能力

GPT ‑ 4.1、GPT ‑ 4.1 mini 和 GPT ‑ 4.1 nano 都支持处理最长达 100 万 Token 的上下文内容,相比之前 GPT ‑ 4o 的 128,000 Token 实现了大幅跃升。100 万 Token 的容量,相当于超过 8 份完整的 React 代码库,因此长上下文功能非常适合用于处理大型代码库或超长文档。

OpenAI 训练 GPT ‑ 4.1 能够在完整的 100 万 Token 上下文长度中关注相关信息。该模型在识别有用文本、忽略干扰信息方面也比 GPT ‑ 4o 更加可靠,无论是长上下文还是短上下文。长上下文理解能力对于法律、编程、客户支持等多个领域的应用来说,都是一项关键能力。

下图展示了 GPT ‑ 4.1 在整个上下文窗口中检索 " 隐藏信息 "(即 "needle")的能力,该信息被放置在不同位置。GPT ‑ 4.1 始终能够准确地检索出 needle,无论其在输入中的位置或上下文长度如何,甚至是在最长 100 万 Token 的输入中。这表明它能够根据任务需要,精准提取出相关细节,而不受其在上下文中位置的影响。

当然,现实任务往往需要模型同时检索并理解多个信息。为此,OpenAI 推出新的评估基准 OpenAI-MRCR,用于测试模型在长上下文中区分多个相似请求的能力。任务挑战在于:上下文中插入多个几乎相同的请求,容易导致模型产生困惑。

GPT ‑ 4.1 在长达 100 万 Token 的输入中表现明显优于 GPT ‑ 4o。尽管任务困难,GPT ‑ 4.1 展示了强大的多轮推理与上下文检索能力。OpenAI 已开源数据集,鼓励更多相关研究。

图注:在 OpenAI-MRCR 中,模型必须回答涉及从干扰信息中辨别出上下文中 2、4 或 8 个用户请求

OpenAI 还发布了 Graphwalks 数据集,用于评估模型在多步长上下文推理方面的能力。与 OpenAI-MRCR 不同,Graphwalks 无法通过顺序地通读上下文来解决,即便是人类也难以用 " 一遍读完 " 来完成任务。它专门设计为需要模型在上下文的多个位置之间进行推理。

Graphwalks 会用一个由十六进制哈希构成的有向图填满整个上下文,然后要求模型从图中一个随机节点开始,执行广度优先搜索(BFS),并返回某一深度下的所有节点。在这个评估中,GPT ‑ 4.1 的准确率为 61.7%,与 o1 模型持平,优于 GPT ‑ 4o,展示了其在复杂逻辑路径理解与多步推理中的优势。

图注:在 Graphwalks 中,模型被要求从一个大型图中的随机节点开始执行广度优先搜索(BFS)

04 视觉能力

GPT ‑ 4.1 系列模型在图像理解方面表现出色,尤其是 GPT ‑ 4.1 mini ,在多个图像基准测试中经常优于 GPT ‑ 4o。

图注:在 MMMU 中,模型需要回答包含图表、图示、地图等内容的问题

图注:在 MathVista 中,模型解决视觉数学任务

图注:在 CharXiv-Reasoning 中,模型回答关于科学论文中图表的问题

图注:在 Video-MME 中,模型根据没有字幕的 30 到 60 分钟长的视频回答多项选择题

定价

GPT ‑ 4.1、GPT ‑ 4.1 mini 和 GPT ‑ 4.1 nano 现在已向所有开发者开放。通过对推理系统的效率改进,OpenAI 能够提供更低的 GPT ‑ 4.1 价格。

与 GPT ‑ 4o 相比,GPT ‑ 4.1 在普通查询上便宜了 26%,而 GPT ‑ 4.1 nano 是 OpenAI 迄今为止最便宜且最快的模型。

对于反复使用相同上下文的查询,OpenAI 将此新模型的提示缓存折扣提高到 75%(之前为 50%)。最后,长上下文请求的费用仅按标准每个 Token 的费用计算,不会收取额外费用。

OpenAI 表示,GPT ‑ 4.1 是人工智能实际应用的重大进步。通过紧密关注现实开发者需求,从编码到指令遵循,再到长上下文理解,这些模型为构建智能系统和复杂的智能体应用开辟了新的可能性。(文 / 金鹿 小燕)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

nano mini 编程 吞吐量
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论