研究称大模型视觉能力不如6岁小孩 Gemini仅胜3岁小孩

【CNMO 科技消息】近日，UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的发布的最新研究显示，在 BabyVision 视觉推理 benchmark 上，Gemini 3 Pro Preview 仅小胜三岁儿童，跟六岁儿童仍有 20% 的差距。

据 CNMO 了解，Gemini 3 Pro Preview 在 benchmark 上得分仅为 49.7%，虽然略微领先于其他模型（如 GPT-5.2、Claude 4.5 Opus、Grok-4），但其在 " 找不同 "、路径追踪和空间想象等任务中频频失误。例如，在找拼图任务中，它错误地将两个几乎相同的形状选为匹配，完全忽略了细微的几何差异。

研究指出，这种现象并非偶然。当前的大多数多模态大模型在处理视觉信息时，都会先将图像转换为语言描述，再利用强大的语言模型进行推理。然而，这种 " 语言化 " 的处理方式导致了致命的视觉信息丢失：语言无法精确描述像素级的精细差异。当面临细微的边界曲线或空间关系时，模型往往无法像人类幼儿那样直接在视觉空间中进行几何匹配，而是受限于语言表达的模糊性。

面对这一挑战，研究团队提出了两种潜在的突破方向：一种是通过强化学习（RLVR）微调模型，在语言推理中引入更显式的中间视觉步骤；另一种是探索基于生成式建模的视觉推理方法，试图让模型直接在像素空间内绘制轨迹或补全图案，以绕过语言描述的瓶颈。尽管目前效果尚不理想，但这一方向被视为未来 AI 具身智能的关键突破口。

宙世代

一起剪

相关标签