有消息称，ChatGPT或正测试接入新的语音模型

继今年年初有消息称，OpenAI 正在筹备一款基于双向音频架构（BiDirectional Audio）的下一代语音模型，旨在优化 ChatGPT 的语音交互体验后。日前有消息显示，OpenAI 方面已开始在 ChatGPT 中测试一款代号为 Bidi 1 的双向语音模型，并有望在本周启动更大范围测试。对此有消息源透露，这或将是 ChatGPT 语音体验的最大规模升级。

但截至目前，OpenAI 方面尚未对此消息进行回应。

目前曝光的相关截图显示， Bidi 1 已经出现在 ChatGPT 设置页的模型选择器内，启用后 ChatGPT 的语音模式气泡将从蓝色变为黄色。在相关测试视频中表明，除了可以实现更自然的语音输出外，Bidi 1 还支持边说边听，并可以在对话中途响应新的指令，以及实现实时翻译。例如当 Bidi 1 开始根据要求从 1 数到 10，但用户在中途打断并要求倒数，该模型就会立即执行。

据悉，这并非 OpenAI 首次推出具备实时翻译能力的语音模型。此前在今年 5 月，OpenAI 就曾同时发布 3 款语音模型，其中的 GPT-Realtime-Translate 便聚焦实时语言翻译场景，支持 70 种输入语言和 13 种输出语言。但需要注意的是，GPT-Realtime-Translate 是一个 API 产品，仅面向开发者。

对此有观点认为，"Bidi 1 的不同之处在于，它是 ChatGPT 消费者端的原生语音模式升级，意味着数亿 ChatGPT 用户将直接获得双向实时翻译能力，无需任何开发集成 "。

据了解，今年 5 月 OpenAI 方面发布的另外两款语音模型则分别是 GPT-Realtime-2、GPT-Realtime-Whisper。前者专为实时语音交互设计，上下文窗口由上一代的 32K 增长至 128K，是首款具备 GPT-5 级推理能力的语音模型，可以在保持对话自然流畅的前提下，实时进行逻辑推理、调用工具。后者则专注于低延迟语音转文本，能在用户说话的同时转录音频。

【本文图片来自网络】

加入收藏 点赞 ( 0 ) 踩 ( 0 )

宙世代

一起剪

相关标签