手机中国 01-23
研究称大模型视觉能力不如6岁小孩 Gemini仅胜3岁小孩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【CNMO 科技消息】近日,UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的发布的最新研究显示,在 BabyVision 视觉推理 benchmark 上,Gemini 3 Pro Preview 仅小胜三岁儿童,跟六岁儿童仍有 20% 的差距。

据 CNMO 了解,Gemini 3 Pro Preview 在 benchmark 上得分仅为 49.7%,虽然略微领先于其他模型(如 GPT-5.2、Claude 4.5 Opus、Grok-4),但其在 " 找不同 "、路径追踪和空间想象等任务中频频失误。例如,在找拼图任务中,它错误地将两个几乎相同的形状选为匹配,完全忽略了细微的几何差异。

研究指出,这种现象并非偶然。当前的大多数多模态大模型在处理视觉信息时,都会先将图像转换为语言描述,再利用强大的语言模型进行推理。然而,这种 " 语言化 " 的处理方式导致了致命的视觉信息丢失:语言无法精确描述像素级的精细差异。当面临细微的边界曲线或空间关系时,模型往往无法像人类幼儿那样直接在视觉空间中进行几何匹配,而是受限于语言表达的模糊性。

面对这一挑战,研究团队提出了两种潜在的突破方向:一种是通过强化学习(RLVR)微调模型,在语言推理中引入更显式的中间视觉步骤;另一种是探索基于生成式建模的视觉推理方法,试图让模型直接在像素空间内绘制轨迹或补全图案,以绕过语言描述的瓶颈。尽管目前效果尚不理想,但这一方向被视为未来 AI 具身智能的关键突破口。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 效果 阿里
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论