智东西 前天
Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 王涵

编辑 | 漠影

智东西 7 月 16 日消息,今日,谷歌和 Meta 前研究人员创立的 AI 初创公司 Mistral AI,最新发布了首个开源语音模型:Voxtral 语音理解模型系列!

该模型包含 24B 和 3B 两个参数规模的版本,均基于 Apache 2.0 许可证开源,同时提供 API 服务接口。

Voxtral 模型支持 32k token 的上下文窗口,能够处理长达 30 分钟的音频转录任务或 40 分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型 Whisper large-v3。

Voxtral 模型继承了 Mistral Small 3.1 基座模型的文本理解能力,除了基础的语音转文字功能外,还可以直接对音频内容进行问答交互,生成结构化摘要,并通过语音指令触发 API 调用。

在成本敏感型应用场景中,Voxtral Mini 转录版的性能优于 OpenAI Whisper,而使用成本仅为后者的 50% 以下。在高阶应用场景中,Voxtral Small 在保持与 ElevenLabs Scribe 相当性能水平的同时,使用成本同样控制在后者 50% 以下。

开发者可以在 Le Chat 上试用,通过 Hugging Face 平台获取模型进行本地部署,也可以使用云端 API 服务。

针对企业级应用,该模型支持私有化部署方案,可进行特定领域的微调适配,并提供高级上下文处理功能以及专属集成支持。

未来两周内 Voxtral 模型将在网页和移动端的语音模式中向所有用户推出。

一、转录能力全面碾压 Whisper,3 项测试超越 GPT-4o mini

在转录能力上,Voxtral 通过多个英语及多语种基准测试进行验证,每个任务的评测结果均采用跨语言宏平均词错率呈现,即数值越低越好。针对英语任务,还分别统计了短音频(<30 秒)和长音频(>30 秒)的平均表现。

结果显示,Voxtral 在各项指标上全面超越当前领先的开源语音转录模型 Whisper large-v3。在英语短音频,以及覆盖多种语言和方言的大规模语音数据库 Mozilla Common Voice 基准上,Voxtral Small 超越 Gemini 2.5 Flash 与 GPT-4o mini Transcribe,在英语长音频测试上也超越了 Scribe 和 GPT-4o mini Transcribe。

在多语言基准测试 FLEURS 的评估中,Voxtral Small 模型在所有任务上都超越了 Whisper large-V3,并在法语和德语中占据榜单首位。

二、语音翻译成绩占据榜首,语音理解能力追平 GPT-4o-mini、Gemini 2.5 Flash

为了更好地测试 Voxtral Small 和 Mini 版本的语音理解能力,Mistral 的研究团队将三项标准文本理解任务转换为语音输入形式,并构建了包含 40 个长音频样本的内部音频理解基准(AU Benchmark),要求模型完成复杂问答任务。此外,还基于 FLEURS-Translation 基准测试了 Voxtral 的语音翻译性能。

测试结果显示,Voxtral Small 在所有任务中与 GPT-4o-mini 及 Gemini 2.5 Flash 表现相当,并在语音翻译任务 FLEURS Translation 中,超越 GPT-4o-mini 及 Gemini 2.5 Flash,位列第一。

在文本方面,Voxtral 保留了其基座语言模型的文本处理能力,在各项文本测试中与 Mistral Small 3.1 成绩相当,官方称可直接替代 Ministral 和 Mistral Small 3.1 模型使用。

结语:Voxtral 表现超越开源项目,但难敌商业模型

Mistral AI 发布的 Voxtral 语音模型系列为开源语音 AI 领域带来了新的技术选择。

从测试结果上看,该模型在转录准确率上超越了同为开源的 Whisper,但其与商业模型 GPT-4o-mini 及 Gemini 2.5 Flash 还是有着一定的差距,Scribe 依旧是语音模型中的 " 老大 "。

Mistral AI 在公告中还特别提到,未来几个月,Voxtral 模型的音频处理能力还会持续增强,并且将新增说话人分割、音频标记(如年龄和情绪)、词级时间戳、非语音音频识别等功能。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 开源 英语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论