智东西 昨天
刚刚,小米又开源一大模型,22个公开测评SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 云鹏

编辑 | 李水青

智东西 8 月 4 日消息,刚刚,小米公司正式开源声音理解大模型 MiDashengLM-7B。其声音理解性能在22 个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首 Token 延迟(TTFT)为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

具体来看,MiDashengLM-7B 基于Xiaomi Dasheng 作为音频编码器Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。

此前小米于 2024 年首次发布 Xiaomi Dasheng 声音基座模型,此次开源的 7B 模型是该模型的扩展。目前该系列模型在小米智能家居、汽车座舱等领域有 30 多个落地应用。

小米称,音频理解是构建全场景智能生态的关键领域。MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

MiDashengLM 的训练数据由 100% 公开数据构成。

GitHub 主页:

https://github.com/xiaomi-research/dasheng-lm

技术报告:

https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数(Hugging Face):

https://huggingface.co/mispeech/midashenglm-7b

模型参数(魔搭社区):

https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo:

https://xiaomi-research.github.io/dasheng-lm

交互 Demo:

https://huggingface.co/spaces/mispeech/MiDashengLM

一、支持跨场景音频理解能力,音频编码器多项关键测试超越 Whisper

MiDashengLM 在音频描述、声音理解、音频问答任务中有比较明显的优势:

音频描述任务性能(FENSE 指标)

在音频描述任务中,MiDashengLM-7B 比 Qwen、Kimi 同类 7B 模型性能更强。

声音理解任务性能

在声音理解任务中,MiDashengLM-7B 除 FMA、VoxCeleb-Gender 项目均领先于 Qwen 的 7B 模型,与 Kimi 的 7B 模型相比,仅有 VoxCeleb-Gender 项目略微落后。

语音识别任务性能(WER/CER 指标)

在语音识别任务中,MiDashengLM-7B 的主要优势在于 GigaSpeech 2,在其他两组测试中 Qwen 和 Kimi 有一定优势。

音频问答任务性能

其中,Xiaomi Dasheng 音频编码器是 MiDashengLM 音频理解能力的重要来源。在用于评估编码器通用能力的 X-ARES Benchmark 上,Xiaomi Dasheng 在多项关键任务上优于作为 Qwen2.5-Omni、Kimi-Audio 等模型音频编码器的 Whisper。

音频编码器在 X-ARES Benchmark 上的分数对比

除了声音理解,Xiaomi Dasheng 还可以用于音频生成任务,如语音降噪、提取和增强。

二、推理效率提升,单样本 4 倍加速与百倍并发支持

MiDashengLM 的训练和推理效率是其另一项优势。对于单个样本推理的情形,即 batch size 为 1 时,MiDashengLM 的首个 token 预测时间(TTFT)为 Qwen2.5-Omni-7B 的 1/4。

批次处理时,在 80GB GPU 上处理 30 秒音频并生成 100 个 token 的测试中,MiDashengLM 可以把 batch size 设置为 512,而 Qwen2.5-omni-7B 在 batch size 设置为 16 时即出现显存溢出(OOM)。

Batch size=1 时 TTFT 和 GMACS 指标对比

在实际部署中,MiDashengLM 在同等硬件条件下可支持更多的并发请求量,降低计算成本。

80G 显存环境下模型每秒可处理的 30s 音频个数

这背后,MiDashengLM 基于 Xiaomi Dasheng 架构,在维持音频理解核心性能指标基本持平的前提下,通过优化音频编码器设计,将其输出帧率从 Qwen2.5-Omni 的 25Hz 降至 5Hz,降幅 80%,降低了计算负载并实现了推理效率提升。

三、训练范式改变:从碎片化转录到全局语义刻画

MiDashengLM 采用通用音频描述对齐范式,避免了用 ASR 转录数据对齐仅关注语音内容而丢弃环境声音和音乐信息,且无法捕捉说话人情感、空间混响等关键声学特征的局限,通用描述对齐策略通过非单调的全局语义映射,迫使模型学习音频场景的深层语义关联。

该方法可以使用几乎所有的数据,包括噪声或非语音内容,而基于 ASR 转录的方法会丢弃非语音数据如环境声或音乐,导致数据利用率低下,基于 ASR 的对齐方法在 ACAV100M-Speech 数据集上会损失 90% 潜在有用数据。

MiDashengLM 训练框架

MiDashengLM 的训练数据通过多专家分析管道生成:首先对原始音频使用各种专家模型作语音、人声、音乐和环境声学的细粒度标注,包括使用 Dasheng-CED 模型预测 2 秒粒度的声音事件,再通过 DeepSeek-R1 推理大模型合成统一描述。

全部训练数据的原始标签在预训练中被弃用,只采用利用上述流程生成的新的丰富文本描述标签,以迫使模型学习更丰富全面的声音信息。

其中,来自 ACAV100M 的开源数据集经过上述流程重新标注后,形成了新的 ACAVCaps 训练集和 MECAT Benchmark。MECAT Benchmark 已于近期开源,ACAVCaps 数据集将在 ICASSP 论文评审后开放下载。

ACAVCaps 训练数据集构建流程

四、全栈开源,透明可复现

此次 MiDashengLM 训练数据 100% 来自公开数据集,涵盖五类 110 万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。

MiDashengLM 完整公开了 77 个数据源的详细配比,技术报告公开了从音频编码器预训练到指令微调的全流程。

据官方信息,小米已开始对 Xiaomi Dasheng 系列模型做计算效率的升级,寻求终端设备上可离线部署。

结语:小米音频大模型再拱一卒,多模态能力拼图日趋完善

作为影响自然语言交互体验的关键技术之一,小米 Xiaomi Dasheng 系列模型此次的升级,对其提升自家设备的 AI 交互体验有一定帮助,从智能家居、智能汽车到智能手机,各类产品均能受益。

AI 多模态是当下业界主攻的方向之一,小米重心转向造车后,在 AI 大模型领域发声并不多,小米未来在多模态领域能否带来更多模型创新,值得期待。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 开源 音乐 智能家居
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论