三易生活 23小时前
有消息称,ChatGPT或正测试接入新的语音模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

继今年年初有消息称,OpenAI 正在筹备一款基于双向音频架构(BiDirectional Audio)的下一代语音模型,旨在优化 ChatGPT 的语音交互体验后。日前有消息显示,OpenAI 方面已开始在 ChatGPT 中测试一款代号为 Bidi 1 的双向语音模型,并有望在本周启动更大范围测试。对此有消息源透露,这或将是 ChatGPT 语音体验的最大规模升级。

但截至目前,OpenAI 方面尚未对此消息进行回应。

目前曝光的相关截图显示, Bidi 1 已经出现在 ChatGPT 设置页的模型选择器内,启用后 ChatGPT 的语音模式气泡将从蓝色变为黄色。在相关测试视频中表明,除了可以实现更自然的语音输出外,Bidi 1 还支持边说边听,并可以在对话中途响应新的指令,以及实现实时翻译。例如当 Bidi 1 开始根据要求从 1 数到 10,但用户在中途打断并要求倒数,该模型就会立即执行。

据悉,这并非 OpenAI 首次推出具备实时翻译能力的语音模型。此前在今年 5 月,OpenAI 就曾同时发布 3 款语音模型,其中的 GPT-Realtime-Translate 便聚焦实时语言翻译场景,支持 70 种输入语言和 13 种输出语言。但需要注意的是,GPT-Realtime-Translate 是一个 API 产品,仅面向开发者。

对此有观点认为,"Bidi 1 的不同之处在于,它是 ChatGPT 消费者端的原生语音模式升级,意味着数亿 ChatGPT 用户将直接获得双向实时翻译能力,无需任何开发集成 "。

据了解,今年 5 月 OpenAI 方面发布的另外两款语音模型则分别是 GPT-Realtime-2、GPT-Realtime-Whisper。前者专为实时语音交互设计,上下文窗口由上一代的 32K 增长至 128K,是首款具备 GPT-5 级推理能力的语音模型,可以在保持对话自然流畅的前提下,实时进行逻辑推理、调用工具。后者则专注于低延迟语音转文本,能在用户说话的同时转录音频。

【本文图片来自网络】

加入收藏 点赞 ( 0 ) 踩 ( 0 )

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

翻译 交互设计 语音交互
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论