多模态大模型掉进真实世界,会 " 失聪 "。
你把它放在厨房:背后有人说话、金属碰撞、蒸汽嘶嘶——画面里啥也没有,但声音已经把关键信息全透露了。此时最强模型也开始 " 失灵 ":看得懂动作,听不懂发生了什么;能描述现象,推不出原因。
问题不是模型不会 " 看 ",而是还不会真正 " 听 "。
声音,从来不是配角
而在人类的日常认知里,声音从来不是配角:
它提供空间线索(声源左 / 右、远 / 近、是否移动)
它揭示画面外事件(镜头外的对话、敲门、摔落、报警)
它承载因果与意图(某个动作触发了某个声音;某个声音提示下一步行为)
但长期以来,第一人称视频理解基准高度 " 视觉中心化 ":音频存在,但缺乏系统评测;听觉重要,却很少被认真考察。第一视角世界,一直处在 " 半静音 " 状态。现有第一人称视频问答 / 理解基准,长期偏 " 视觉中心 ",即使出现音频也常被当作辅助信息,缺少对 " 声音理解与推理 " 的系统评测空白。
现在,这个空白终于被补上了。
EgoSound:让模型真正学会 " 听 "
来自复旦大学,上海创智学院,INSAIT,华东师范大学,南开大学的研究团队,提出了首个系统评测第一人称声音理解能力的基准:
EgoSound: Benchmarking Sound Understanding in Egocentric Videos

这是首个专门面向 MLLMs 的第一视角 " 声音理解 " 评测体系。目标很明确:
让模型在真实世界中,能听见、理解、推理,并解释发生的一切。
不仅 " 看见世界 ",更要 " 听懂世界 "。
从 " 看见发生了什么 " 到 " 听懂隐藏线索 "

以往的 egocentric VideoQA,更像一个 " 静音观察者 "。它擅长回答:画面里有什么?人在做什么?却很难处理:谁在说话?为什么说?这个声音意味着什么?声音与动作如何形成因果链?
EgoSound 关注的不是 " 视频里有什么 ",而是:当声音成为关键证据时,模型还能不能答对?
一个基准,四大核心贡献 1. 首个第一人称声音理解 Benchmark
EgoSound 融合了两类互补数据:
Ego4D:覆盖大量日常第一人称活动
EgoBlind:聚焦更依赖听觉理解 / 交互 / 导航的场景
这使得评测既包含 " 视觉主导 " 的常见第一视角,也包含 " 声音主导 " 的现实难例。
2. 七大任务体系:从感知到推理
EgoSound 系统拆解了第一人称声音能力边界,覆盖 7 类任务:
Sound Characteristics(声音特征)
Counting(计数)
Temporal Attribute(时序属性)
Spatial Location(空间定位)
Sound Source Identification(声源识别)
Inferential Causality(因果推理)
Cross-Modal Reasoning(跨模态推理)
覆盖 " 听到→理解→推断 " 完整链路。
3. 高质量大规模 OpenQA 数据集
最终数据规模为:900 段严格筛选视频 +7315 条验证后的开放式问答(OpenQA)。
强调 " 开放式 " 意味着它更接近真实问答,不是靠选项 " 蒙对 ",更贴近真实场景。
4. 全面模型评测与基线建立
研究团队评测了多款 SOTA MLLMs,并进行系统分析,给未来方法研究提供清晰靶点。

为 " 听觉推理 " 量身打造的数据构建流程
为了确保问题真的依赖声音,研究团队采用多阶段筛选机制:
定位关键的人 - 物交互片段
再生成交互片段的 " 音频中心 " 描述
构建并筛选高质量 OpenQA
并借助多个强模型辅助标注。最终保证:每条问题都绕不开 " 听觉线索 "。

实验结果:模型仍然 " 听不懂世界 "
评测结果非常直观,最强模型与人类差距超过27 个点说明:当前模型还无法稳定把声音转化为可靠认知。
人类平均准确率:83.9%
当前最佳模型:56.7%(Qwen3-Omni-Thinking-30B)

三个关键发现(1)空间 / 时序 / 因果最难:
模型往往能描述看得见的内容,却难以稳定回答 " 声音来自哪里 "" 什么时候发生 "" 为什么会这样 "。
(2)跨模态对齐仍是瓶颈:
声音线索经常在画面之外,模型需要建立 " 听到—看到—推断 " 的链条。
(3)第一人称的真实复杂度被低估:
人与物的交互、遮挡、镜头抖动、声源离镜头远近变化,让声音推理更贴近真实但也更难。
结语:真实世界从不静音
如果说过去的多模态模型更像一个擅长 " 看图说话 " 的解说员,那么 EgoSound 希望推动它成为真正的第一人称智能体:
既能看,也能听;不仅能描述,更能定位、解释与推断。
毕竟,真实世界从不静音
论文标题:
EgoSound: Benchmarking Sound Understanding in Egocentric Videos
Paper:
https://www.arxiv.org/abs/2602.14122
Github:
https://github.com/groolegend/EgoSound/
Huggingface:
https://huggingface.co/datasets/grooLegend/EgoSound
Project page:
https://groolegend.github.io/EgoSound/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦