GPT-4.1深夜偷袭！OpenAI掏出史上最小、最快、最便宜三大模型，百万token上下文

作者 | 程茜

编辑 | 云鹏

智东西 4 月 15 日报道，刚刚，OpenAI 一口气掏出了 GPT-4.1 系列的三款模型，并称这是其有史以来最小、最快、最便宜的模型系列，且新模型的整体性能表现要优于 GPT-4o 和 GPT-4o mini。

GPT-4.1 系列模型包含三个模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，上下文窗口均达到 100 万个 token，输出 token 数达到 32768 个，知识截止日期为 2024 年 6 月。OpenAI 的基准测试显示，其在编码、指令遵循、长文本理解方面的得分均超过了 GPT-4o 和 GPT-4o mini。

GPT-4.1 系列模型仅通过 API 提供，现已对所有开发者开放。OpenAI 将开始在 API 中弃用 GPT-4.5 预览版，因为 GPT-4.1 系列模型在许多关键能力上提供了相似性能，同时成本和延迟更低。GPT-4.5 预览版将在今年 7 月 14 日关闭。

具体的性能优化集中于编码、指令遵循、长文本理解上：

编码：GPT-4.1 在 SWE-bench 验证测试中得分 54.6%，较 GPT-4o 提升了 21.4%，较 GPT-4.5 提升了 26.6%。

指令遵循：在 Scale 的衡量指令遵循能力指标的 MultiChallenge 基准测试中，GPT-4.1 得分 38.3%，较 GPT-4o 提升了 10.5%。

长文本理解：在多模态长文本理解的 Video-MME 基准测试中，GPT-4.1 在无字幕的长文本类别中得分 72.0%，较 GPT-4o 提升了 6.7%。

对于对延迟较为敏感的场景，OpenAI 重点提到了 GPT-4.1 nano，并称这是其最快、最经济的模型。GPT-4.1 nano 基准测试 MMLU 得分为 80.1%，GPQA 得分为 50.3%，Aider 多语言编码得分为 9.8%，均高于 GPT-4o mini。

OpenAI 在博客中提到，性能表现更好、更经济的 GPT-4.1 系列模型将为开发者构建智能系统和复杂的智能体应用开辟新的可能性。

价格方面，对于中等规模的查询，GPT-4.1 的价格比 GPT-4o 低 26%，对于重复使用相同上下文的查询，OpenAI 将提示缓存折扣从之前的 50% 提高到了 75%。最后，除了标准的每 token 费用之外，OpenAI 不会对长上下文请求额外收费。

一、编码能力：表现优于 GPT-4o，超 80% 用户喜欢 GPT-4.1 的应用

GPT-4.1 在多种编码任务上的表现优于 GPT-4o，包括主动解决编码任务、前端编码、减少不必要的编辑、遵循 diff 格式、确保工具使用的一致性等。

相比于 GPT-4o，GPT-4.1 可以创建功能更强大、美观度更高的 Web 应用，如下图所示的 " 闪卡 " 应用：

在衡量现实世界软件工程技能的指标 SWE-bench Verified 上，GPT-4.1 完成了 54.6% 的任务，GPT-4o 为 33.2%，这说明 GPT-4.1 在探索代码库、完成任务以及生成既可运行又可通过测试的代码方面的能力提升。

▲该测试中，模型会收到一个代码库和问题描述，然后其需要生成补丁来解决该问题，模型的表现会高度依赖于所使用的提示和工具。

对于希望编辑大文件的 API 开发者来说，GPT-4.1 在多种格式下的代码差异方面更加可靠。GPT-4.1 在多语言差异基准测试 Aider 中的得分，是 GPT-4o 的两倍，比 GPT-4.5 高出 8%。

这项评估既考察模型对各种编程语言编码的能力，还有对模型在整体和差异格式下产生变化的能力。OpenAI 专门训练了 GPT-4.1 以遵循差异格式，这使得开发者可以通过模型仅输出更改的行来节省成本和延迟，而不是重写整个文件。

此外，OpenAI 将 GPT-4.1 的输出 token 限制增加到 32768 个，GPT-4o 为 16384 个 token，其还建议使用预测输出以减少完整文件重写的延迟。

▲在 Aider 中，模型通过编辑源文件来解决 Exercism 的编码练习，允许重试一次。

前端编码方面，GPT-4.1 能够创建功能更强大、美观度更高的 Web 应用。在 OpenAI 的对比测试中，人工评分员在 80% 的情况下更青睐 GPT-4.1 生成的网站，而非 GPT-4o 生成的网站。

在上述基准测试之外，GPT-4.1 可以减少不必要的编辑。在 OpenAI 的内部评估中，代码中的不必要的编辑从 GPT-4o 的 9% 降至 GPT-4.1 的 2%。

二、遵循指令：评估 6 大关键指令性能，多轮自然对话效果比 GPT-4o 提高 10.5%

OpenAI 开发了一个内部评估系统，用于跟踪模型在多个维度和几个关键指令遵循类别中的性能，包括：

Format following：提供指定模型响应自定义格式的指令，例如 XML、YAML、Markdown 等；

Negative instructions：指定模型应避免的行为，例如 " 不要要求用户联系支持 "；

Ordered instructions：为模型提供一组必须按给定顺序执行的指令，例如 " 首先询问用户的姓名，然后询问他们的电子邮件 "；

Content requirements：输出包含某些信息的内容，例如 " 撰写营养计划时，始终包含蛋白质含量 "；

Ranking：以特定方式排序输出，例如 " 按人口数量排序 "。

Overconfidence：如果请求的信息不可用或请求不属于给定类别，则指导模型说 " 我不知道 " 或类似的话。例如：" 如果你不知道答案，请提供支持联系邮箱。"

OpenAI 的博客中提到，这些类别是根据开发者反馈得出的。在每个类别中，OpenAI 将简单、中等和困难提示进行了细分，GPT-4.1 在困难提示方面相对于 GPT-4o 有显著提升。

▲ GPT-4.1 在困难提示方面表现

多轮指令遵循对开发者的重要性在于，模型需要保持对话的连贯性，并跟踪用户之前告诉它的内容。OpenAI 训练 GPT-4.1，以使得其能更好地从过去的对话信息中提取信息，从而实现更自然的对话。在 Scale 的 MultiChallenge 基准中，GPT-4.1 比 GPT-4o 提高了 10.5%。

▲ GPT-4.1 在 MultiChallenge 中测试结果

在 IFEval 测试中，其使用具有可验证指令的提示，例如，指定内容长度或避免某些术语或格式。GPT-4.1 得分达到 87.4%，GPT-4o 为 81.0%。

▲ GPT-4.1 在 IFEval 中测试结果

早期测试者指出，GPT-4.1 可能更容易理解字面意思，因此 OpenAI 建议开发者可以在提示中明确具体的指令。

三、长文本理解：适合处理大型代码库、长文档，" 大海捞针 " 也不在话下

GPT-4.1 系列模型可以处理 100 万个 token 上下文，此前 GPT-4o 的上下文窗口为 128000 个。100 万个 token 已经是整个 React 代码库的超过 8 倍之多，因此长上下文适合处理大型代码库或大量长文档。

OpenAI 还对 GPT-4.1 模型进行了训练，使其能在长和短上下文长度中忽略干扰信息，这也是法律、编码、客户支持等多个领域的企业应用的关键能力。

博客中，OpenAI 展示了 GPT-4.1 在上下文窗口内不同位置检索一条隐藏的少量信息（即一根 " 针 "）的能力，也就是 " 大海捞针 " 的能力。

▲ OpenAI 内部针对 GPT-4.1 模型的 " 大海捞针 " 评估

其结果显示，GPT-4.1 能够在所有位置以及各种上下文长度（直至长达 100 万个 token）的情况下准确检索到这条关键信息（" 针 "）。无论相关细节在输入内容中的位置如何，它都能提取出与当前任务相关的细节。

在实际使用中，用户经常需要模型理解、检索多个信息片段，并理解这些片段之间的关系。为了评估这一能力，OpenAI 正在开源新的评估工具：OpenAI-MRCR（多轮核心词识别）。

OpenAI-MRCR 可以用来测试模型在上下文中找到和区分多个隐藏得关键信息的能力。评估包括用户和助手之间的多轮合成对话，用户要求模型写一篇关于某个主题的文章，例如或 " 写一篇关于岩石的博客文章 "。随后，其会在整个对话上下文中插入 2、4 或 8 次相同的请求，模型需要据此检索出对应特定请求实例的回复。

在 OpenAI-MRCR ⁠中，模型回答的问题，会拥有 2 个、4 个或 8 个分散在上下文中的相似提示词干扰项，模型需要在这些问题和用户提示之间进行消歧。

▲在 OpenAI-MRCR ⁠中，模型回答问题被添加 2 个干扰项的评估结果

▲在 OpenAI-MRCR ⁠中，模型回答问题被添加 4 个干扰项的评估结果

▲在 OpenAI-MRCR ⁠中，模型回答问题被添加 8 个干扰项的评估结果

这之中的挑战就是，这些请求与上下文其余部分很相似，模型容易被细微的差异所误导。OpenAI 发现，GPT-4.1 在上下文长度达到 128K 个 token 时优于 GPT-4o。

OpenAI 还发布了用于评估多跳长上下文推理的数据集 Graphwalks。这是因为，许多需要长上下文的开发者用例需要在上下文中进行多个逻辑跳跃，例如在编写代码时在多个文件之间跳转，或者在回答复杂的法律问题时交叉引用文档等。

Graphwalks 需要模型跨上下文多个位置进行推理，其使用由十六进制散列组成的定向图填充上下文窗口，然后要求模型从图中的一个随机节点开始进行广度优先搜索（BFS），然后要求它返回一定深度的所有节点。

▲ Graphwalks 评估结果

GPT-4.1 在这个基准测试中达到了 61.7% 的准确率，与 o1 的表现相当，并且击败了 GPT-4o。

除了模型性能和准确性之外，开发者还需要能够快速响应以满足用户需求的模型。OpenAI 改进了推理堆栈，以减少首次 token 的时间，并且通过提示缓存进一步降低延迟、节省成本。

OpenAI 的初步测试显示，GPT-4.1 的 p95 首次 token 延迟大约为十五秒，在 128000 个上下文 token 的情况下，100 万个上下文 token 为半分钟。GPT-4.1 mini 和 nano 更快，如 GPT-4.1 nano 对于 128000 个输入 token 的查询，通常在五秒内返回第一个 token。

四、多模态理解：无字幕视频答题、看图解数学题，表现均超 GPT-4o

在图像理解方面，GPT-4.1 mini 在图像基准测试中优于 GPT-4o。

对于多模态用例，如处理长视频，长上下文性能也很重要。在 Video-MME（长无字幕）中，模型根据 30-60 分钟长的无字幕视频回答多项选择题，GPT-4.1 得分 72.0%，高于 GPT-4o 的 65.3%。

模型回答包含图表、图表、地图等问题的 MMMU 测试结果：

模型解决视觉数学任务的 MathVista 测试结果：

模型回答关于科学论文图表问题的 CharXiv-Reasoning 测试结果：

结语：为构建复杂智能体开辟可能性

GPT-4.1 的提升与开发者日常开发的真实需求相关，从编码、指令遵循到长上下文理解，而性能表现更好、更经济的 GPT-4.1 系列模型为构建智能系统和复杂的智能体应用开辟了新的可能性。

未来，这或许会使得开发者将其与各类 API 结合使用，构建出更有用、更可靠的智能体，这些智能体可以在现实世界的软件工程、从大量文档中提取见解、以最小的人工干预解决客户请求以及其他复杂任务方面有应用的潜力。

宙世代

一起剪

相关标签