驱动之家 09-01
OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 9 月 1 日消息,OpenAI 正式发布语音模型 GPT-realtime。

据介绍,GPT-realtime 是一款专注于语音 AI Agent 的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。

官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、更具表现力的语音方面表现卓越。尤其在重复字母与数字、逐字朗读免责声明、语句间无缝切换语言等场景中,GPT-realtime 展现出优秀的适应能力。

该模型还具备出色的上下文理解能力,可准确捕捉非语言线索(如笑声),并实时调整语音语气,实现诸如 " 带法国口音的友好语调 " 或 " 语速较快的专业语调 " 等多样化表达。

此外,GPT-realtime 新增了 "Cedar" 和 "Marin" 两种语音风格,并对现有八种语音效果进行了全面优化。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

准确 法国 医疗 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论