Techweb 10-02
OpenAI开发者大会推出四大创新:提示词缓存可减少50%输入token成本
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【TechWeb】10 月 2 日消息,美东时间 10 月 1 日 OpenAI 举行了年度开发者大会 DevDay,推出系列新工具,包括四大创新:实时 API(Realtime API)、视觉微调(Vision Fine-Tuning)、提示词缓存(Prompt Caching)、模型蒸馏(Model Distillation),为开发者带来在降低模型成本、提高模型视觉理解水平、提升语音 AI 功能和小模型性能的新选择。在 OpenAI 官网主要,上述功能介绍已经做了全面更新,一起看看。

实时 API(Realtime API)

OpenAI DevDay 发布了 Realtime API,目前处于公开测试 beta 阶段。

Realtime API 能够构建低延迟、多模式对话体验。它目前支持文本和音频作为输入和输出,以及函数调用。Realtime API 中的音频功能由新的 GPT-4o 模型 "gpt-4o-realtime-preview" 提供支持。

通过此更新,开发人员可以将任何文本或音频输入传递到 GPT-4o,并让模型以他们选择的文本、音频或两者做出响应。

本质上,Realtime API 简化了构建语音助手和其他对话式 AI 工具的过程,无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。

Realtime API 定价方面,Realtime API 同时使用文本 tokens 和音频 tokens。文本输入 tokens 的价格为 5 美元 / 百万 tokens,输出 tokens 的价格为 20 美元 / 百万 tokens。音频输入的价格为 100 美元 / 百万 tokens,输出的价格为 200 美元 / 百万 tokens。这相当于每分钟音频输入约 0.06 美元,每分钟音频输出约 0.24 美元。

视觉微调(Vision Fine-Tuning)

OpenAI DevDay 公布,OpenAI 最新的大语言模型(LLM) GPT-4o 引入了视觉微调。此功能让开发人员可以自定义模型以获得更强大的图像理解能力,从而实现增强的视觉搜索功能、改进的自动驾驶汽车或智能城市的物体检测以及更准确的医学图像分析等应用。

视觉微调遵循与文本微调类似的过程——开发人员可以准备他们的图像数据集,然后将该数据集上传到 Open AI 的平台。他们可以用少至 100 张图像来提高 GPT-4o 在视觉任务中的性能,并使用更大量的文本和图像数据来提高性能。

OpenAI 举例称,东南亚食品配送和拼车公司 Grab 已经利用这项技术改进其地图服务。仅使用 100 个示例进行视觉微调,教会 GPT-4o 正确定位交通标志并计算车道分隔线以优化其地图数据,结果,与基础 GPT-4o 模型相比,Grab 能够将车道计数准确度提高 20%,限速标志定位率提高 13%。

价格方面,截至 2024 年 10 月 31 日,OpenAI 每天免费提供 100 万 tokens,以使用图像微调 GPT-4o。2024 年 10 月 31 日之后,GPT-4o 微调训练将花费每 100 万 tokens 25 美元,推理将花费每 100 万个输入 tokens 3.75 美元和每 100 万个输出 tokens 15 美元。图像输入首先根据图像大小进行标记,然后按与文本输入相同的每令牌费率定价。

提示词缓存(Prompt Caching)

提示词缓存被视为本次 DevDay 发布的最重要更新。该功能旨在降低开发者的成本、减少延迟。

许多开发人员在构建 AI 应用程序时,会在多个 API 调用中重复使用相同的上下文,例如在编辑代码库或与聊天机器人进行长时间的多轮对话时。今天,我们推出了提示词缓存(Prompt Caching),让开发人员可以降低成本和延迟。通过重复使用最近处理的输入 token,开发人员可以获得 50% 的折扣和更快的提示词处理时间。

目前,提示词缓存(Prompt Caching)已自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及这些模型的微调版本。与未缓存的提示相比,缓存的提示可享受折扣。

模型蒸馏(Model Distillation)

OpenAI 推出了一款新的模型蒸馏产品,为开发人员提供集成的工作流程,以直接在 OpenAI 平台内管理整个蒸馏流程。

这让开发人员可以轻松使用前沿模型(如 o1-preview 和 GPT-4o)的输出来微调和提高更具成本效益的模型(如 GPT-4o mini)的性能,让小模型也可拥有尖端模型功能。

  这种方法让小公司也可能利用与尖端模型类似的功能,并且无需承担使用这类模型的计算成本。例如一家从事医疗技术的小型初创公司要为农村的诊所开发一种 AI 驱动的诊断工具。使用模型蒸馏,该公司可以训练一个紧凑的模型,该模型可以捕捉大模型的大部分诊断能力,同时只需要在标准的笔记本电脑或平板电脑上运行。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

开发者大会 vision 医学 准确 智能城市
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论