智东西
作者 | 王涵
编辑 | 漠影
智东西 8 月 7 日报道,今天,MiniMax 推出新一代语音生成模型 Speech 2.5。
相比 5 月发布的 Speech 02,Speech 2.5 有三大新突破:多语种表现更自然、音色复刻更像、40 个语种覆盖更广。
目前,Speech 2.5 已全球上线,用户可以登录 MiniMax 开放平台或 MiniMax Audio 官网体验。
Speech 2.5 主页
用户可以在 Speech 2.5 主页选择想要的音色,在对话框内输入文字描述,也可以上传文件,就可以一键生成所需音频。下文呈现了官方公布的 Speech 02 生成音频的 Demo 和智东西实测案例:
一、多语种自然表达,减小机械感
MiniMax Speech 2.5 提高了生成音频的相似度和自然韵律度,降低了字错率、减小了 AI 生成的商务会议、日常对话、英文播客的机械感。
智东西实测,其还可以给音频添加场景氛围音,生成的音频不但可以清晰准确地念出文字,还有母语者很地道的停顿、语调。
二、跨语种复刻口音,还原声线
Speech 2.5 还可以跨语种复刻口音,保留同语种不同地区的口音,还能保留特殊年龄的声线特点,用户可以自由选择自己想要的音色,在不同的语言中切换,Speech 2.5 生成的内容依旧可以保留口音特色细节。
三 、新增多个小语种,语种类型增至 40 个
Speech 2.5 新增了保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语等多个小语种,语种类型扩充到了 40 个。跨境电商、出海客服、本地化营销,全球化内容可以一键创作。
四、促进跨境业务,喜马拉雅、网易都用了
MiniMax Speech 语音模型可以应用在多种场景下,例如多语种客服、跨国广告配音、跨国教育、跨境电商等。
目前,MiniMax Speech 语音模型已在全球被广泛采用。在海外,Vapi、Pipecat 等 Agent 平台选择使用 MiniMax Speech 提供服务,Hedra、Icon、Syllaby 等头部 AI 应用也已接入 MiniMax Speech。
国内,高途教育、喜马拉雅、网易、Rokid 眼镜等头部平台及产品都选择了 MiniMax Speech。
结语:MiniMax 在 AI 音频赛道继续深耕
MiniMax 在 AI 音频赛道并非初出茅庐,其今年 5 月发布的 Speech 02 在 Artificial Analysis 和 Hugging Face TTS Arena 两项语音基准测评榜单中超越 OpenAI、ElevenLabs 等知名模型,获得双料第一。
Speech 2.5 可视为 Speech 02 的进阶版本,在继承前代优势的基础上,进一步在多语种、音色复刻及语种覆盖上深入优化。
当下,众多企业和研究机构纷纷布局,AI 音频赛道竞争愈发激烈,MiniMax Speech 2.5 的发布为市场注入了新的活力。
登录后才可以发布评论哦
打开小程序可以发布评论哦