ChatGPT语音模式被曝本周大升级！被打断也能自然回应

智东西

编译 | 茄子

编辑 | 程茜

智东西 6 月 24 日消息，据 Testing Catalog 昨日发文，OpenAI 正在为 ChatGPT 的语音能力准备一次升级。一款名为 GPT-Bidi-1（简称 Bidi 1）的新一代双向音频模型近日已在部分用户的 ChatGPT 网页端和 App 界面中出现，预计最快本周开始逐步推送。

网友解锁了 OpenAI 的语音功能（图源：X）

据 Testing Catalog 称，不同于过去 " 用户说完、AI 再答 " 的轮次对话的模式，Bidi 1 能够让 AI 在用户说话时同步处理语义，实现真正的双向并行交互。

所谓 Bidi，是 bidirectional（双向）的缩写，它试图解决语音 AI 长期存在的对话必须严格轮流执行的基础问题。在传统语音助手中，用户说话时 AI 必须等待，AI 回应时用户不能插话，整个过程更像是排队式的问答。

而 Bidi 1 希望打破这一结构，让 AI 可以在用户说话的过程中持续理解语义，并在适当时机同步回应，使对话更接近人与人之间的自然交流状态。

据 Testing Catalog 早期测试，Bidi 1 的表现与当前高级语音模式之间的差距非常明显。Bidi 1 被集成在设置中的模型选择器里，与标准语音和高级语音模式并列，用户启用 Bidi 1 后语音气泡会发生变化。

GPT-Bidi-1 语音模式（图源：Testing Catalog）

在实际交互中，当用户语速放慢或短暂停顿时，它会以 " 嗯 "" 好的 " 等轻量化方式自然回应，而不是完全沉默等待。

更重要的是，它允许用户随时打断当前回答并切换任务，例如让模型从 1 数到 10 之后中途要求倒数，它能够立即调整并继续执行，而不需要重新开始整个流程。

相比当前的语音系统，Bidi 1 在对话连续性上的改善也更加明显。过去的语音模式往往难以稳定维持长对话上下文，容易在多轮交流后丢失前文信息，而这一问题在新模型中得到了明显缓解。

同时，在用户停顿时它也不会频繁抢话，而是根据语境判断是否介入，使整体对话节奏更接近自然交流。

另一个值得注意的变化是创意能力的延续。Bidi 1 仍然保留了类似唱歌、节奏口技等互动式表达能力，但在版权内容的处理上更加严格，会直接拒绝演唱热门歌曲，不过仍可能尝试以指定风格生成原创内容。

与此同时，实时翻译能力也被更自然地嵌入到语音对话之中。据 Testing Catalog 的测试，用户不再需要单独调用翻译工具，在对话过程中就可以自动完成语言转换。

这一能力此前已经通过 API 形式开放给开发者，而 Bidi 1 的实时翻译能力直接面向消费者，使跨语言交流成为默认体验之一。

GPT-Bidi-1 的实时翻译（图源：Testing Catalog）

从整个演进路径来看，从 OpenAI 首个原生多模态模型 GPT-4o 的低延迟语音对话，到 Advanced Voice Mode 的实时语音体验，再到新一代语音模型 Realtime API 向开发者开放语音能力。OpenAI 正在逐步将语音从一个功能模块，升级为一种默认交互入口。

而 Bidi 1 的意义在于，它开始真正触及语音交互的底层结构，对话不再是 " 问答轮次 "，而是一个持续流动的交互过程。

目前 OpenAI 尚未正式发布该模型，但据媒体报道，Bidi 1 预计将在本周启动逐步灰度推送，并采取分阶段开放策略，部分地区可能延后体验。同时，Codex 预计将在数周后获得独立的语音能力升级，而 API 层面的开放则可能会更晚一些。

结语：OpenAI 押注语音将成为和 AI 的主要交流方式

据 CNBC 报道称，OpenAI 或将押注语音成为大多数人接触 AI 的主要形式，而非文字。

Testing Catalog 称，Bidi 可能是 OpenAI 弥合文本模型与语音层之间差距的关键一步。此前的语音系统通常是 " 文本模型 + 语音外壳 " 的组合，而 Bidi 1 更接近于原生语音对话模型，它不再只是把文字转为语音，而是在语音流中直接进行理解与生成。这说明 " 对话 " 本身正在成为 ChatGPT 的主要交流方式。

OpenAI 此次升级的关键不在于语音是否更自然，而在于对话结构本身是否发生变化。当 AI 能够同时听、说、被打断，并持续维持语境时，人机交互的逻辑就不再是 " 问与答 "，而更接近一种实时协作式的交流。

来源：Testing Catalog、CNBC

宙世代

一起剪

相关标签