智东西
作者 | 云鹏
编辑 | 李水青
智东西 8 月 4 日消息,刚刚,小米公司正式开源声音理解大模型 MiDashengLM-7B。其声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首 Token 延迟(TTFT)为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。
具体来看,MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。
此前小米于 2024 年首次发布 Xiaomi Dasheng 声音基座模型,此次开源的 7B 模型是该模型的扩展。目前该系列模型在小米智能家居、汽车座舱等领域有 30 多个落地应用。
小米称,音频理解是构建全场景智能生态的关键领域。MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。
MiDashengLM 的训练数据由 100% 公开数据构成。
GitHub 主页:
https://github.com/xiaomi-research/dasheng-lm
技术报告:
https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
模型参数(Hugging Face):
https://huggingface.co/mispeech/midashenglm-7b
模型参数(魔搭社区):
https://modelscope.cn/models/midasheng/midashenglm-7b
网页 Demo:
https://xiaomi-research.github.io/dasheng-lm
交互 Demo:
https://huggingface.co/spaces/mispeech/MiDashengLM
一、支持跨场景音频理解能力,音频编码器多项关键测试超越 Whisper
MiDashengLM 在音频描述、声音理解、音频问答任务中有比较明显的优势:
音频描述任务性能(FENSE 指标)
在音频描述任务中,MiDashengLM-7B 比 Qwen、Kimi 同类 7B 模型性能更强。
声音理解任务性能
在声音理解任务中,MiDashengLM-7B 除 FMA、VoxCeleb-Gender 项目均领先于 Qwen 的 7B 模型,与 Kimi 的 7B 模型相比,仅有 VoxCeleb-Gender 项目略微落后。
语音识别任务性能(WER/CER 指标)
在语音识别任务中,MiDashengLM-7B 的主要优势在于 GigaSpeech 2,在其他两组测试中 Qwen 和 Kimi 有一定优势。
音频问答任务性能
其中,Xiaomi Dasheng 音频编码器是 MiDashengLM 音频理解能力的重要来源。在用于评估编码器通用能力的 X-ARES Benchmark 上,Xiaomi Dasheng 在多项关键任务上优于作为 Qwen2.5-Omni、Kimi-Audio 等模型音频编码器的 Whisper。
音频编码器在 X-ARES Benchmark 上的分数对比
除了声音理解,Xiaomi Dasheng 还可以用于音频生成任务,如语音降噪、提取和增强。
二、推理效率提升,单样本 4 倍加速与百倍并发支持
MiDashengLM 的训练和推理效率是其另一项优势。对于单个样本推理的情形,即 batch size 为 1 时,MiDashengLM 的首个 token 预测时间(TTFT)为 Qwen2.5-Omni-7B 的 1/4。
批次处理时,在 80GB GPU 上处理 30 秒音频并生成 100 个 token 的测试中,MiDashengLM 可以把 batch size 设置为 512,而 Qwen2.5-omni-7B 在 batch size 设置为 16 时即出现显存溢出(OOM)。
Batch size=1 时 TTFT 和 GMACS 指标对比
在实际部署中,MiDashengLM 在同等硬件条件下可支持更多的并发请求量,降低计算成本。
80G 显存环境下模型每秒可处理的 30s 音频个数
这背后,MiDashengLM 基于 Xiaomi Dasheng 架构,在维持音频理解核心性能指标基本持平的前提下,通过优化音频编码器设计,将其输出帧率从 Qwen2.5-Omni 的 25Hz 降至 5Hz,降幅 80%,降低了计算负载并实现了推理效率提升。
三、训练范式改变:从碎片化转录到全局语义刻画
MiDashengLM 采用通用音频描述对齐范式,避免了用 ASR 转录数据对齐仅关注语音内容而丢弃环境声音和音乐信息,且无法捕捉说话人情感、空间混响等关键声学特征的局限,通用描述对齐策略通过非单调的全局语义映射,迫使模型学习音频场景的深层语义关联。
该方法可以使用几乎所有的数据,包括噪声或非语音内容,而基于 ASR 转录的方法会丢弃非语音数据如环境声或音乐,导致数据利用率低下,基于 ASR 的对齐方法在 ACAV100M-Speech 数据集上会损失 90% 潜在有用数据。
MiDashengLM 训练框架
MiDashengLM 的训练数据通过多专家分析管道生成:首先对原始音频使用各种专家模型作语音、人声、音乐和环境声学的细粒度标注,包括使用 Dasheng-CED 模型预测 2 秒粒度的声音事件,再通过 DeepSeek-R1 推理大模型合成统一描述。
全部训练数据的原始标签在预训练中被弃用,只采用利用上述流程生成的新的丰富文本描述标签,以迫使模型学习更丰富全面的声音信息。
其中,来自 ACAV100M 的开源数据集经过上述流程重新标注后,形成了新的 ACAVCaps 训练集和 MECAT Benchmark。MECAT Benchmark 已于近期开源,ACAVCaps 数据集将在 ICASSP 论文评审后开放下载。
ACAVCaps 训练数据集构建流程
四、全栈开源,透明可复现
此次 MiDashengLM 训练数据 100% 来自公开数据集,涵盖五类 110 万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。
MiDashengLM 完整公开了 77 个数据源的详细配比,技术报告公开了从音频编码器预训练到指令微调的全流程。
据官方信息,小米已开始对 Xiaomi Dasheng 系列模型做计算效率的升级,寻求终端设备上可离线部署。
结语:小米音频大模型再拱一卒,多模态能力拼图日趋完善
作为影响自然语言交互体验的关键技术之一,小米 Xiaomi Dasheng 系列模型此次的升级,对其提升自家设备的 AI 交互体验有一定帮助,从智能家居、智能汽车到智能手机,各类产品均能受益。
AI 多模态是当下业界主攻的方向之一,小米重心转向造车后,在 AI 大模型领域发声并不多,小米未来在多模态领域能否带来更多模型创新,值得期待。
登录后才可以发布评论哦
打开小程序可以发布评论哦