智东西 昨天
MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

智东西 8 月 7 日报道,今天,MiniMax 推出新一代语音生成模型 Speech 2.5。

相比 5 月发布的 Speech 02,Speech 2.5 有三大新突破:多语种表现更自然、音色复刻更像、40 个语种覆盖更广。

目前,Speech 2.5 已全球上线,用户可以登录 MiniMax 开放平台或 MiniMax Audio 官网体验。

Speech 2.5 主页

用户可以在 Speech 2.5 主页选择想要的音色,在对话框内输入文字描述,也可以上传文件,就可以一键生成所需音频。下文呈现了官方公布的 Speech 02 生成音频的 Demo 和智东西实测案例:

一、多语种自然表达,减小机械感

MiniMax Speech 2.5 提高了生成音频的相似度和自然韵律度,降低了字错率、减小了 AI 生成的商务会议、日常对话、英文播客的机械感。

智东西实测,其还可以给音频添加场景氛围音,生成的音频不但可以清晰准确地念出文字,还有母语者很地道的停顿、语调。

二、跨语种复刻口音,还原声线

Speech 2.5 还可以跨语种复刻口音,保留同语种不同地区的口音,还能保留特殊年龄的声线特点,用户可以自由选择自己想要的音色,在不同的语言中切换,Speech 2.5 生成的内容依旧可以保留口音特色细节。

三 、新增多个小语种,语种类型增至 40 个

Speech 2.5 新增了保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语等多个小语种,语种类型扩充到了 40 个。跨境电商、出海客服、本地化营销,全球化内容可以一键创作。

四、促进跨境业务,喜马拉雅、网易都用了

MiniMax Speech 语音模型可以应用在多种场景下,例如多语种客服、跨国广告配音、跨国教育、跨境电商等。

目前,MiniMax Speech 语音模型已在全球被广泛采用。在海外,Vapi、Pipecat 等 Agent 平台选择使用 MiniMax Speech 提供服务,Hedra、Icon、Syllaby 等头部 AI 应用也已接入 MiniMax Speech。

国内,高途教育、喜马拉雅、网易、Rokid 眼镜等头部平台及产品都选择了 MiniMax Speech。

结语:MiniMax 在 AI 音频赛道继续深耕

MiniMax 在 AI 音频赛道并非初出茅庐,其今年 5 月发布的 Speech 02 在 Artificial Analysis 和 Hugging Face TTS Arena 两项语音基准测评榜单中超越 OpenAI、ElevenLabs 等知名模型,获得双料第一。

Speech 2.5 可视为 Speech 02 的进阶版本,在继承前代优势的基础上,进一步在多语种、音色复刻及语种覆盖上深入优化。

当下,众多企业和研究机构纷纷布局,AI 音频赛道竞争愈发激烈,MiniMax Speech 2.5 的发布为市场注入了新的活力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

喜马拉雅 网易 ai 跨境电商
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论