文 | 字母 AI
昨天凌晨,OpenAI 发布了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。
OpenAI 官网的表述是,新模型可以让开发者构建能在用户说话时 " 推理、翻译和转写 " 的实时语音产品。三款模型已经开放给开发者测试。

这次更新的重点在于三款模型不同场景分工。
GPT-Realtime-2 面向实时语音 Agent 场景,它是 OpenAI 首个具备 "GPT-5 级推理 " 的语音模型,可以处理复杂请求,调用工具,处理中途打断,并在更长语音会话中维持上下文。
GPT-Realtime-Translate 面向实时语音翻译场景,支持 70 多种输入语言到 13 种输出语言。
GPT-Realtime-Whisper 面向实时语音转写,可以在人说话时生成文本,用于字幕、会议记录和工作流更新。
价格也同步公布。GPT-Realtime-2 按 token 计费,音频输入起价为 32 美元 / 百万 token,音频输出为 64 美元 / 百万 token;GPT-Realtime-Translate 按分钟计费,价格为 0.034 美元 / 分钟;GPT-Realtime-Whisper 同样按分钟计费,价格为 0.017 美元 / 分钟。
相关报道显示,一些企业用户包括 Zillow、Priceline 和德国电信在内的知名厂商已经在测试这些模型。
这是 OpenAI 过去一年语音路线的一次延伸。
2024 年,OpenAI 先把 ChatGPT 高级语音模式背后的低延迟语音能力开放给开发者;2025 年 8 月,OpenAI 推出首个正式版 Gpt-Realtime,开始面向生产级语音 Agent。
今年 2 月,Gpt-Realtime-1.5 成为上一代主力模型,用于语音 Agent 和客服场景。再到今天的 2.0 版本的三大模型矩阵,这更像 Realtime 产品线从体验功能走向企业 API 的一次版本升级。

从对话走向执行
先来看 GPT-Realtime-2,按照 OpenAI 官方的说法,这是第一款具备 "GPT-5 级推理 " 的语音模型。这个模型被设计用于处理复杂请求、调用工具、处理中断,并在更长的语音会话里保持上下文。
这些能力对应的是语音 Agent 落地时最常见的问题。
GPT-Realtime-2 把上下文窗口从 32K 提升到 128K。这个参数对长会话场景有直接意义。比如一个用户想要针对某套房产做咨询、或者想要改签机票,这些场景都可能包含大量条件和多轮确认。
上下文窗口扩大后,模型可以在更长的实时对话里保留前面出现过的限制、偏好和业务信息。
工具调用也是这次更新里的关键词。RealtimeAPI 可以用于构建会调用工具的语音体验。应用可以保持实时会话连接,连续发送音频,接收模型事件,更新会话状态,并把外部系统返回的结果再交给模型继续回应。
美国房地产信息查询网站 Zillow,成为了 OpenAI 官方的首批企业案例。
OpenAI 在官网中提到,Zillow 正在用 GPT-Realtime-2 构建可以理解住房条件并安排看房的语音助手。Zillow 方面表示,在最困难的对抗性测试中,经过 prompt 优化后,电话任务成功率从 69% 提升到 95%,FairHousing 相关合规表现也更稳定。
Fair Housing 指美国住房交易中的反歧视合规要求,房产平台不能在买卖、租赁、贷款或经纪服务中,基于种族、宗教、性别、残障、家庭状况、国籍等因素区别对待用户。
从 " 能说 " 到 " 会说 ",这可能是 GPT-Realtime-2 给予行业的最大震撼。
Booking 子公司、知名旅行优惠平台 Priceline,则代表另一类语音模型的落地场景。
据了解,Priceline 也在测试 GPT-Realtime-2 系列。旅游预订的链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音 Agent 如果能稳定接入后台系统,就有机会把 " 问答 " 推进到 " 办事 "。
OpenAI 提到的另一个已知客户是德国电信。电信行业有大规模坐席、复杂套餐、故障处理、多语言服务和账单解释,也是语音模型落地的天然场景。

GPT-Realtime-2 还有一个细节是可调推理强度。
OpenAI 开发者文档提到,GPT-Realtime-2 把推理能力带入语音到语音工作流。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。
这个细节很重要。语音交互比文字聊天更怕停顿。用户在电话里等待一两秒,会明显感到卡顿。推理越强,延迟压力越大。在性能和响应的平衡上,不同的开发者在这个问题上会有一定取舍。。
官方也给出了一些测试数据。OpenAI 称,GPT-Realtime-2 在 Big Bench Audio 上比 GPT-Realtime-1.5 高 15.2%,在 Audio MultiChallenge 上高 13.8%。这两个指标用于衡量模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。
第二款模型是 GPT-Realtime-Translate。
按 OpenAI 面向开发者的示例说明,GPT-Realtime-Translate 主打实时语音到语音翻译,适合广播、直播、电话和视频对话。它会自动识别输入语言,并输出翻译后的语音和文本。开发者只需要设定目标语言。
这个模型支持 70 多种输入语言到 13 种输出语言。OpenAI 称,它可以在说话人讲话时跟上节奏。开发者文档还提到,传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而 GPT-Realtime-Translate 更接近连续口译的形态。
OpenAI 把它的场景分成两类。
一类是广播式翻译,比如直播、网络研讨会、讲座、财报电话会和大型会议演讲。另一类是对话式翻译,比如呼叫中心、视频通话和电话工作流。这两个类别基本覆盖了企业最愿意付费的跨语言场景:客服、教育、国际会议、内容平台、跨境销售和企业培训。
第三款模型是 GPT-Realtime-Whisper。
GPT-Realtime-Whisper 强调实时流式转写。它可以在说话人讲话时生成字幕、会议记录和工作流更新。相比起前两个模型,Whisper 的商业门槛最低。它的价格仅为 0.017 美元 / 分钟。
三款模型放在一起看,OpenAI 已经把实时音频拆成了三个明确入口:GPT-Realtime-2 处理语音 Agent,GPT-Realtime-Translate 处理跨语言沟通,GPT-Realtime-Whisper 处理实时文本化。
三者的价格、延迟要求和客户场景都不同,奥特曼想要在差异化路线上 " 通吃 " 语音 AI 市场。
TTS 市场卷完 " 声音质量 " 卷 " 实时 "
这次发布还有一个很清楚的商业信号:OpenAI 正在把语音 AI 能力,全面推向 API 市场和企业工作流。
除了 OpenAI 官方提到的 Zillow、Priceline 和德国电信三大测试客户,更多公司也在把这批语音模型接进自己的产品。
比如视频平台 Vimeo、企业知识管理工具 Glean、客服软件公司 Intercom,以及面向企业语音 Agent 的 BolnaAI,都出现在目前披露的相关案例中。
换句话说,GPT-Realtime 系列已经成为了 OpenAI 的一个成熟的商业化版图,客户覆盖内容平台、企业办公、客服系统和语音 Agent 创业公司等多类开发者。
OpenAI 展示的是一组真实业务中的场景:AI 在通话中理解需求、调用系统、翻译语言,并把语音交互接进企业后台。
而这一切,正好发生在语音 AI 市场继续升温的周期里。
过去两年,语音 AI 赛道最受关注的公司之一是 ElevenLabs。这家公司 2022 年成立,最早靠高度拟真的 AI 配音、声音克隆、多语言配音和内容本地化出圈,后来又把产品往企业语音 Agent 延伸。今年 2 月,ElevenLabs 宣布完成 5 亿美元 D 轮融资,估值达到 110 亿美元。
这一估值较 2025 年 1 月的 33 亿美元大幅上升。公司称,这笔资金将用于全球扩张,并继续投入情感化对话模型、配音、转写和 AI 语音 Agent 等方向。
更近的动态是,ElevenLabs 在近期披露,公司年化经常性收入已经超过 5 亿美元,并公布了更多参与 D 轮融资的新投资方。
其中既包括贝莱德、惠灵顿管理等大型机构,也包括英伟达、赛富时创投、德国电信等产业方。甚至演员 Jamie Foxx、Eva Longoria 以及《鱿鱼游戏》创作者黄东赫等个人投资者,也出现在这轮投资名单中。
面对着日益增长的需求,语音 AI 已经不只是创作者的配音工具。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话 Agent,都在消耗更自然、更便宜、更可控的机器声音。
Deepgram 代表另一种路线。
这家公司长期做语音识别基础设施,客户更多来自联络中心、会议、销售、医疗、金融等高频语音场景。近年,Deepgram 开始补上文本转语音和语音 Agent 接口,试图打通语音模型的办事场景。
Deepgram 披露的信息显示,旗下 Aura-2 文本转语音面向实时语音应用,流式延迟低于 200 毫秒,并支持对地址、电话号码、字母数字组合等结构化内容做更自然的朗读。
它还把语音识别、语音合成、实时情绪分析、话题检测和摘要能力,放进联络中心等企业场景。
Cartesia 则主打低延迟和实时交互。
这家公司由前斯坦福 AI 实验室成员创办,技术标签是状态空间模型,主打更快、更低成本的实时多模态模型。
它的语音产品 Sonic 系列,核心卖点是低延迟文本转语音。Cartesia 的 Sonic 3 文档称,它是一个流式文本转语音模型,强调高自然度、准确跟随文本和低延迟;Sonic 3 支持 42 种语言,也支持音量、语速和情绪控制。
在 Cartesia 官网上,可以看到这家公司把 90 毫秒低延迟作为实时对话体验的卖点。
这些公司共同推动了 TTS 市场的变化。
早期 TTS 竞争主要看声音像不像真人。之后,行业开始比多语言覆盖、声音克隆、情绪表达、版权授权和配音效率。
现在,语音 Agent 把要求抬高了。企业不只要一个好听的声音,还要完整链路:语音识别要准,首字延迟要低,大模型要能理解上下文,工具调用要稳定,语音合成要自然,翻译要连续,转写还要能进入后续工作流。
一些行业材料也反映了这个趋势。Deepgram 在 TTS 对比文章中提到,面向语音 Agent 的文本转语音,已经把 " 首段语音生成低于 100 毫秒 " 视为新的基线之一。
在行业内都在竞相卷 " 实时 " 的背景下,OpenAI 最大的优势来自模型栈。
OpenAI 可以把整个企业调用 TTS 的链路,放到同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。对企业来说,统一平台也更容易做权限管理、日志留存、数据策略和安全审查。
不过,OpenAI 想要通吃企业语音市场,也没那么容易。
ElevenLabs 已跑到 110 亿美元估值、超过 5 亿美元年化收入;Deepgram 今年 1 月完成 1.3 亿美元融资,估值 13 亿美元,服务 1300 多家客户;Cartesia 也在 2025 年完成 6400 万美元 A 轮融资,Sonic 模型据称已有 1 万多客户使用,并以 90 毫秒模型延迟、42 种语言主打实时语音。
OpenAI 有模型栈优势,但语音市场并不缺少强势玩家。

奥特曼对这次发布的公开表态很短。他在 X 上称,GPT-Realtime-2 进入 API 是 " 相当大的一步前进 ",同时 OpenAI 还在继续改进 ChatGPT 里的语音体验。
只是从各大企业用户争相测试的情况来看,OpenAI 的新一代语音模型,足以让人期待他在接下来这一年的市场表现。


登录后才可以发布评论哦
打开小程序可以发布评论哦