小米宣布开源声音理解大模型MiDashengLM-7B

今天小米发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解，声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩（SOTA），单样本推理的首 Token 延迟（TTFT）仅为业界先进模型的 1/4，同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件，是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上，小米已着手对该模型做计算效率的进一步升级，寻求终端设备上可离线部署，并完善基于用户自然语言提示的声音编辑等更全面的功能。