量子位 13小时前
准确率腰斩!大模型视觉能力一出日常生活就「失灵」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

我们习惯了 AI 在屏幕上侃侃而谈、生成美图,好像它无所不知。但假如把它 " 扔 " 进一个真实的手术室,让它用主刀医生的第一视角来判断下一步该用哪把钳子,这位 " 学霸 " 很可能当场懵圈。

针对此类问题,EgoCross 项目团队聚焦跨域第一人称视频问答评测。新工作系统揭示现有 MLLM 在外科、工业、极限运动与动物视角等场景下的泛化瓶颈。

目前大多数第一人称视频基准均集中于日常生活活动,而忽略了真实世界应用中巨大的领域差异。

来自华东师范大学、INSAIT 的研究团队,首次提出跨域第一视角视频问答基准 EgoCross,覆盖 4 个高价值专业领域、包含近千条高质量 QA 对,同时提供闭卷(CloseQA)和开卷(OpenQA)双评测格式,彻底填补了该领域的评估空白。

同时,团队通过 8 款主流 MLLM 的全面测试,揭示了现有模型的跨域短板,并验证了微调(SFT)、强化学习(RL)等方法的改进潜力。

目前该项研究已入选 AAAI 2026,所有数据集、代码已全部开源。

打破日常 " 舒适圈 "

Egocentric Video Question Answering(EgocentricQA)的目标,是让模型在 " 第一视角视频 + 问题 " 的输入下,给出正确自然语言回答。

已有大量工作在这一方向取得了进展,但几乎都只在日常生活场景里评测模型:做饭、切菜、整理房间……

现实中,更具挑战的场景往往来自:

手术领域:不仅要识别 " 切割工具 ",还需要区分 " 抓钳 "、" 手术刀 " 和 " 双极镊 " 等精细器械。同时,手术流程长,风险高,识别识别及预测错误带来的风险极大;

工业领域:涉及复杂的电路板维修流程和精细物体识别;

极限运动:第一视角相机剧烈抖动、视角切换频繁,画面模糊严重;

动物视角:相机随动物做不规则运动,视角高度和关注区域与人类完全不同。

这些场景在视觉风格语义内容上都与 " 日常家务 " 大相径庭,构成天然的领域差异(domain shift)

这引出了本研究的核心问题:

✦   现有在日常场景上表现优秀的 MLLM,能否在这些陌生领域中依然可靠?

✦   如果不能,问题出在哪?又能如何改进?

一个基准,三大贡献

1. 首个跨域 EgocentricQA 基准

精心选择四个具有实际应用价值的专业领域:手术、工业、极限运动、动物视角

构建了包含 957 个问答对的数据集,覆盖 15 种细粒度任务类型

每个问答对同时提供开放式(OpenQA)和选择式(CloseQA)两种格式

2. 全面模型评估与分析

评测了 8 个最先进的多模态大语言模型,包括 GPT-4.1、Gemini 2.5 Pro 等闭源模型,以及 Qwen2.5-VL、VideoLLaMA3 等开源模型

实验揭示:即使是表现最好的模型,在跨域场景中 CloseQA 准确率也低于 55%(随机猜测为 25%),OpenQA 低于 35%

从任务类型、领域差异、模型架构等多个维度进行了深入分析

3. 前瞻性改进研究

探索了提示学习(Prompt Learning)、监督微调(SFT)和强化学习(RL)等技术

发现 RL 方法能带来最显著的性能提升(平均提高 22%)

为未来构建更具泛化能力的模型提供了方向

详解 EgoCross:如何构建四大领域的 " 专业考题 "?

EgoCross 从五个高质量开源数据集中精选视频,涵盖四个专业领域,每个领域都设计了四类核心任务:识别(Identification)、定位(Localization)、预测(Prediction)和计数(Counting),共 15 种子任务,全面评估模型能力。

识别(Identification):如动作序列识别、主导手持物体识别。如 " 视频中是哪种动物?"" 手术中未出现的器械是什么?"

定位(Localization):包括时间定位和空间定位。如 " 操作员何时首次接触示波器?"" 螺丝刀在画面哪个区域?"

预测(Prediction):如预测下一个动作、方向或阶段。如 " 手术准备阶段后下一步是什么?"" 极限运动的下一个运动方向?"

计数(Counting):对动态对象的计数能力。如 " 视频中可见多少种不同组件?"

实验揭示模型 " 水土不服 "

研究团队的实验揭示了几个关键发现:

领域差距显著:模型在日常活动(EgoSchema)上的准确率为 73.58%,但在 EgoCross 跨域场景中骤降至 43.14%

专业领域挑战更大:工业和极限运动领域对模型最具挑战性,动物视角相对容易

任务类型影响:预测类任务(如预测下一步操作)比基础识别任务下降更严重

模型表现差异:通用大模型(Gemini 2.5 Pro)优于专门针对第一人称视频训练的模型,表明当前领域适应方法存在局限

前瞻性改进尝试

"*" 表示没有 vLLM 加速的 Baseline,由于 vLLM 加速会导致轻微的性能下降,因此它以灰色标记。

研究团队探索了三种改进方法:

提示学习:不改模型参数,只在推理阶段加入领域特定的提示和示例,例如在问题前增加 " 这是一个手术 / 工业 / 极限运动 / 动物视角的视频,请结合该领域特点回答 ",用 " 提词 " 方式挖掘模型已有的跨域能力。

监督微调(SFT):以 Qwen2.5-VL-7B 为基座,在目标领域的少量标注视频问答数据上全参数微调,使模型参数适应新领域分布;在工业领域上,微调后性能相对基线提升接近 20%。

强化学习(RL):基于 GRPO(Generative Reward-based Policy Optimization)搭建 RL 框架,具体做法是:对每个问题采样多条候选回答(每条样本约 8 个),再用一个奖励模型判断答案是否正确并打分,以此作为奖励信号对 Qwen2.5-VL-7B 的策略进行优化。RL 在四个领域上平均带来约 22 个百分点的 CloseQA 准确率提升,是三种方法中效果最明显的。

这些研究初步揭示了当前大模型的能力边界,为未来构建更具泛化能力的多模态系统提供了宝贵见解。

看来,要培养一个不仅会做家务、还能在专业场景 " 扛事 " 的 AI 助手,还需要更多沉淀。毕竟,真正的世界,可远不止厨房那么大。

论文链接:https://arxiv.org/abs/2508.10729

项目主页:https://github.com/MyUniverse0726/EgoCross

挑战赛主页:https://egocross-benchmark.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

aaai 华东师范大学 开源 医生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论