科创板日报 09-19
小米开源首个原生端到端语音大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【小米开源首个原生端到端语音大模型】财联社 9 月 19 日电,小米正式开源首个原生端到端语音模型—— Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的 " 涌现 " 行为。据介绍,在通用语音理解及对话等多项标准评测基准中,MiMo-Audio 大幅超越了同参数量的开源模型,取得 7B 最佳性能;在音频理解基准 MMAU 的标准测试集上,MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash;在面向音频复杂推理的基准 Big Bench Audio S2T 任务中,MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 小米 google 财联社
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论