智东西 03-21
OpenAI最新音频模型一手实测!可癫可御可定制,中文有点翻车
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 陈骏达

编辑 | 云鹏

智东西 3 月 21 日报道,今天,OpenAI 在其 API 中推出全新一代音频模型,分别为语音转文字模型 gpt-4o-transcribe、gpt-4o-mini-transcribe,以及文字转语音模型 gpt-4o-mini-tts。据 OpenAI 介绍,这些模型大幅降低了单词识别错误率、语言识别能力与准确性,尤其是在涉及口音、嘈杂环境和不同语音速度等具有挑战性的场景。

开发者还可以让文本转语音模型以特定的方式说话,如 " 像富有同情心的客户服务人员一样说话 ",或是 " 机器人腔调 "、" 疯狂科学家风格 "。这一功能提升了语音智能体的定制化程度,让智能体与用户的交互更为逼真、丰富。

为展示本次发布的模型,OpenAI 还专门创建了一个独立网站,用户可在网站内免费体验模型文字转语音的能力,而语音转文字能力需要通过 API 访问才可使用。

发布后,智东西也第一时间上手体验了新模型的文字转语音能力。它不仅能流利、富有情感地说英文,还能用意大利语报菜名,用粤语打推销电话,不过,在大部分中文场景中,这款文字转语音模型还有较大的提升空间。

价格方面,gpt-4o-transcribe 的定价为每分钟 0.006 美元(约合人民币 0.04 元);gpt-4o-mini-transcribe 的定价为每分钟 $0.003 美元(约合人民币 0.02 元);gpt-4o-mini-tts 的定价为每分钟 0.015 美元(约合人民币 0.11 元)。

体验链接:https://www.openai.fm/

一、定制化程度大幅提高,中文语音效果略显生硬

进入体验网址首页,可以看到目前 OpenAI 提供了 11 种预置的声音选项。不过,他们给声音起的名字不太直观,用户需要逐一试听才能了解背后的声音到底有什么特点。

在未经提示词调整前,这些语音的听感大多较为普通,不带过多情感,保留了一定的 " 机器感 "。

用户可以在选择声音后,指定特定的风格或人设,如 " 冷静 "、" 耐心老师 "、" 友好 "、" 美食主厨 " 等等。

智东西尝试了 OpenAI 提供的 " 美食主厨 " 选项,这位 " 主厨 " 的人设是一位意大利人,需要以充满激情的腔调讲述当晚的菜单。

提交内容后,模型在数秒内返回了结果。不得不承认,这一语音的感染力很强,也符合对意大利人语音语调的刻板印象。这位 " 主厨 " 不仅能用意大利语报菜名,还能自如地切换回英文进行讲解,细听之后,我们可以发现他所说的英文并非完全标准,带有一定意大利口音,可谓是细节拉满了。

模型还能模仿特定历史时期的说话方式,这是通过定制化的提示词实现的。选择 " 中世纪骑士 " 选项后,模型在情感、语气、情绪、发音、停顿等方面都收到了极为详细的指引。可以看到,实现这一效果的提示词长达 100 多个单词,涉及多个方面的定义,如果用户自行撰写,应该需要具备一定提示词工程基础。

正如提示词所要求的那样,这段语音具有较强的戏剧性,发音清晰、从容,略带正式感,在涉及特定古英语内容时也做了应有的处理。不过,平心而论,这一效果并非完全单靠模型本身所实现,还需要与恰如其分的文本内容配合,才能完美实现。

智东西也测试了模型在中文场景的能力。为提高效率,我们使用大模型仿照 OpenAI 提供的提示词范本,撰写了中文提示词和文本。这一声音的人设是一位语文老师,文本内容是一堂古诗课。

模型在生成中文语音时的速度也较为理想,基本实现了秒出结果,但与英文语音丰富的情绪和语音语调变化相比,中文的语音效果略显生硬,声音缺乏起伏与变化,也没有亲和力。

智东西还尝试了多个不同角色的中文表现,依旧出现了类似的问题。下方案例是一个常见的推销场景,相信大部分人在接到这样的电话时,都能第一时间判断出这是由 AI 生成的。

在方言上,智东西尝试了闽南语、粤语、山东话、河南话等指令,最终只有粤语成功返回了结果,其他的指令返回的结果与普通话没有太大差别。

二、超越 whisper,转写准确度提升

本次 OpenAI 还带来了 2 款新的语音转文字模型。OpenAI 上一代语音转文字模型 whisper 最早于 2022 年发布,后陆续更新至 whisper-large-v3 版本。

本次发布的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在多个基准测试上超过了原有的 whisper 模型,在单词识别错误率上有明显进步。

从语言上来看,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 " 高资源语言 ",即使用人数较多、训练数据充足的语言上表现出色,如英语、西语、葡萄牙语、法语、中文等。众多高资源语言中,模型在中文上的表现相对较差。

而在低资源语言上,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 实现了较大的改进,如孟加拉语(bn)的错误率就从 whisper 的 1% 左右下降至 0.3% 左右,而在印度地方语言古吉拉特语(gu)的错误率也下降至 0.4%。

OpenAI 还将这两款模型与谷歌、Anthropic 等厂商的模型进行对比,在大部分语言上,OpenAI 新模型的表现要优于其他模型。

OpenAI 称,这些新的语音转文本模型能更好地捕捉语音的细微差别,减少误识别,并提高转录的可靠性。

在博客文章中,OpenAI 分享了语音模型能力提升背后的技术细节。gpt-4o-transcribe 和 gpt-4o-mini-transcribe 分别基于 GPT-4o 和 GPT-4o-mini 架构,并在专门的音频数据集上进行了大规模预训练。

此外,OpenAI 使用改进模型蒸馏技术,将大型音频模型的知识迁移到更小、更高效的模型。这一过程中采用了自博弈技术,蒸馏数据集有效地捕捉了真实的对话模式,有助于小型模型提供出色的对话质量和响应速度。

OpenAI 的语音转文字模型使用了以强化学习为主导的范式,这一方法显著提高了精确度并减少了幻觉。

结语:音频生成和转录技术前景值得期待

根据实测结果来看,OpenAI 本次发布的语音转文本模型在 whisper 的基础上并未实现明显提升,有不少网友称这种程度的提升不值得专门付费。而在文本转语音方面,这款模型确实带来了一些惊喜,不过更多的是在英语与其他西方语言上,中文场景的真实性和可用性还有待改进。

OpenAI 称,他们未来会进一步提升音频模型的智能性和准确性,并允许开发者引入自定义声音,从而构建更个性化的体验。作为一个能极大提升交互体验的模态,OpenAI 在音频生成和转录方面的探索值得期待。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论