我发现 AI 可能真的读不懂钟表。
这是这两天我在测试模型的时候发现的。
我给了下面这样一张时钟图:
我觉得基本上都能一眼看出这个时间是 8 点 19 分。本来以为以现在 AI 这样的能力,读个几点钟应该是没什么问题的,但是我却发现真的接连在翻车。
我问了 GLM-4.5 V:
你就说这答案是不是太离谱了点。不信邪的我,又去问了豆包。
emmm... 真这么离谱么 。于是我又去测了 Claude。
也是错的。。 真特么离谱,有这么难?
于是我又去测了 GPT-5 和 Gemini 2.5 Pro, 把希望寄托在它们两个身上,希望它们能够拯救即将全军覆没的 AI 大军。
还得是 GPT-5 啊,答得是最最接近答案的了,除了秒针没有对以外,其他都对了。
Gemini 2.5 Pro 相比于别的模型的回答,也还算凑合能看了,至少没错的那么离谱。
可是,这是为什么呢?
为什么能够在 IMO、高考这些有难度的数学考试里拿到金牌、满分的模型,连一个幼儿园、小学生都会做的任务都完不成?
说来也巧,我在刷 X 的时候,还真的刷到有个大佬拿这个读时间任务作为一个 Benchmark 来考验模型。
人类的基础水平线是 89%,AI 最好的水平线是 Gemini 2.5 Pro ,Grok 4 甚至只有可怜的 0.7%。
终于有一项任务,人类可以狠狠地鄙视下 AI。
但,还是那个问题,为什么 AI 理解不了人类的时间呢?
我用了下深度研究,找到了篇在研究了这件事儿的论文,放在这儿了:
《Have Mutlimodal Large Language Models ( MLLMs ) Really Learned to Tell the Time on Analog Clocks? 》
原因有几点:
专业的话术是:数据的分布偏移 + 只记模式,以及不学规律 。
这个用通俗一点的话来理解就是,训练数据里某一类数据特别多,出现了数据比例不均衡的情况,导致模型学偏了。
大家都知道现在大模型的知识来源有很大一部分是来自互联网的,等于说我们的互联网上有什么数据,模型就吸收什么样的知识。
那在我们的互联网上,随手一搜就能发现,有很多关于时钟的图像都是长这样:
有没有发现,我随手截的这一页时钟,大部分的时间都停在了 10 点 10 分。
这不是什么巧合,而是有说法的。
在广告行业,特别需要视觉展示的领域里,10 点 10 分这个位置是最和谐的对称美学,它能既符合人类平衡、稳定的审美偏好,也完整展示了表盘的结构和信息。
但是,这种视觉上的美好和谐也就给模型造成了过拟合的现象。只记住了这个时间的信息特征,一旦遇上没碰到过的,就崩溃了。就跟我们考试一样,平时做的都是比较简单,又相似度极高的题,一到考场上碰上平时没见过的题目,直接噶屁。
还有一点是,当前的视觉模型对视觉几何上的差异是不敏感的。说人话就是,偷偷拨弄一下时钟或者分针,或者改变一下指针的模样,AI 都看不出来是咋回事。
但是看时间又是一个非常需要高敏感的场景。比如前后差 5 分钟、或者时针分针稍微交换一下位置,时针分针形状稍微变一变,都完全不是一回事儿了。
更难的是,在实际场景中,很多的钟表的表面是有反光、模糊的,甚至有的钟表为了做好看,有艺术感一点,还会做成扭曲的样子,这更加进一步的增加了模型识别的困难。
所以在实际场景中,AI 如果视觉上存在这样严重的缺陷,是会带来很大的麻烦的。
举个例子来说,医院买了一个 AI 助手来提醒病人按时吃药。病人在早上 8 点钟吃了药之后,下一次吃药的时间应该是 1 个小时之后,结果过了 10 分钟,该助手报时给病人了,这个助手就瞎报时为下午 4 点。。。
这不就直接炸了么。。。
这让医生以后如何去使用这样的 AI 系统,病人又该如何相信使用这样垃圾 AI 的医院呢?
本来是用来提升效率的事儿,结果反倒还会出大事儿。
不止是在医院里,任何时间非常敏感的场景,如果采用了现在的视觉理解模型,翻车几乎就是必然的事情。
再让我们回归本质,当前的 AI 模型仍然依赖于海量的训练数据,如果某些应用场景曾经大量的出现在训练数据中,那它会取得不错的效果,比如数学、编程,但是如果某些场景在训练语料里样本偏少,那 AI 大概率表现的不会太好。
AI 本身没有任何问题,能够解决博士级别的科研难题的是它,数不清一个单词有几个相同字母的是它,认不清时间的也是它。
一切都取决于我们人类如何使用它。
我当然坚信 AGI 一定会来,但是通往 AGI 的道路上看起来我们还需要解决很多的问题。
所以,下次如果再看到 AI 画出精美的插画,写出动人的诗篇和文章时,请记住,它也有可能连当下的时间都无法告诉你。
既不要神话、美化它,也不用过分贬低、瞧不起它。
毕竟,要看清这个世界,有时候并没有我们想象的那么容易。
登录后才可以发布评论哦
打开小程序可以发布评论哦