三易生活 09-26
ChatGPT高级语音模式上线,将逐步覆盖订阅用户
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

继此前在 7 月底,OpenAI 方面向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode),并宣布将在今年秋季逐步向所有 ChatGPT Plus 订阅用户开放该模式后。日前 OpenAI 方面宣布,所有 ChatGPT Plus 和 ChatGPT Team 订阅用户都将可以使用 ChatGPT 高级语音模式。据悉,该模式将于本周内在美国市场逐步推出,自 10 月 1 日起将向 ChatGPT Edu、ChatGPT Enterprise 订阅用户开放。

据官方介绍,ChatGPT 高级语音模式新增了自定义指令、记忆功能。其中在自定义指令方面,用户可以通过设置来定制 ChatGPT 的说话方式,例如让模型以特定的节奏说话、发音清晰、慢速说话以及定期使用用户的名字等,以便用户更准确地描述他们希望模型如何说话。

对此 OpenAI 方面指出," 声音模态(声音的传递方式)包含许多元素,这些元素在文本对话中可能无法体现,比如口音、语调、节奏等 "。此外其还透露,ChatGPT 高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。

除了新增功能外,ChatGPT 高级语音模式的对话速度、流畅度,以及口音也都得到了改善,例如目前 ChatGPT 可以使用 50 种语言说 " 对不起,我迟到了 "。此外在对话过程中,其声音还能够根据谈话的语气进行调整,而在不需要交谈时,ChatGPT 就会保持安静。

值得一提的是,ChatGPT 高级语音模式还推出了 Arbor、Maple、Sol、Spruce 和 Vale 五种不同风格的新声音。加上之前的 Breeze、Juniper、Cove 和 Ember 四种声音,该模式的可选声音达到了九种。但需要注意的是,目前的 ChatGPT 高级语音模式还缺少 OpenAI 此前在今年 5 月展示过的部分功能,比如计算机视觉,该功能可让 ChatGPT 仅通过使用智能手机的摄像头就对用户的动作提供语音反馈。

事实上,早在 2023 年年底 OpenAI 方面就为 ChatGPT 引入了语音模式。据悉,ChatGPT 此前的语音模式与以往的智能语音助手类似,是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。用户按下 " 按钮 "、说出自己的问题,ChatGPT 就会将其转换为文本,并生成答案,再将答案转换为语音播放给用户。

相关信息显示,ChatGPT 此前的语音模式使用的 GPT-3.5 模型平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 ChatGPT 高级语音模式使用的 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

准确 计算机视觉 智能手机 语音助手 美国市场
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论