量子位 前天
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型好不容易学会数 r,结果换个字母就翻车了?

而且还是最新的 GPT-5。

杜克大学教授 Kieran Healy 表示,自己让 GPT-5 数了数 blueberry 里有几个 b,结果 GPT-5 斩钉截铁地回答 3 个。

抓马的是,GPT-5 刚发的时候还有网友让它数过 blueberry 里的 r,结果数对了。

虽然博主想到了换掉 strawberry,却没成想让 GPT-5 变得 " 没有 B 数 " 的,竟然不是单词而是字母……

看来香槟还是开得早了亿点点啊(手动狗头)。

越不过的 " 蓝莓山 "

Healy 撰写了一篇名为 "blueberry hill"(蓝莓山)的博客,展示了他和 GPT-5 之间针对 "blueberry 里有几个 b" 展开的一场 " 拉锯战 "。

除了开头直接提问的结果外,Healy 还尝试多次变换提示词策略,结果 GPT-5 的嘴都是比煮熟的鸭子还硬。

比如让它展示出这些 b 都是在哪里出现的,GPT-5 明目张胆地把开头 blue 中的 b 数了两遍。

一看不奏效,Healy 接着追问说,把这 3 个 b 给我拼出来,拼出来就可以。

结果拼是拼出来了,但是 GPT-5 还是坚持有三个 b,并表示第三个 b 是第七个字母(实际上是 r)。

见 GPT-5 还是冥顽不灵,Healy 干脆直接纠正,告诉它只有两个 r,结果纠正了个寂寞,不过这次 " 第三个 b" 的位置从第七漂移到了第六。

接下来,Healy 直接不说话,直接把 blueberry 这个词带空格拼写了一遍,可 GPT-5 依然我行我素,不过这次是把第二个 b 数了两遍,还振振有词地说这里是 "double b"。

绞尽脑汁的 Healy 选择先岔开一下话题,然后回过头来告诉 GPT-5 只有两个 b,但 GPT-5 还是坚称有三个。

到这里,Healy 终于放弃了。

但网友们并没有停下脚步,通过不懈努力终于让 GPT-5 数对了。

但也不算完全对,因为它狡辩说数成 3 个是因为 " 错把词当成了 blueberry,其中真的有 3 个 b"。

我们用中文试了一下,结果同样是翻车。

改成数 e,同样是回答 3 个。

不知道是不是受到 strawberry 里 3 个 r 的影响,让大模型对 3 这个数字产生了执念……

但 GPT-5 的 bug,却不只这一个。

GPT-5 翻车合订本

著名悲观派学者、纽约大学名誉教授马库斯(Gary Marcus)发布了一篇博客,整理了网友们吐槽当中 GPT-5 的各种 bug。

比如发布会现场演示的伯努利原理,被网友发现翻车。

没看过或者没印象的话,当时的演示是这样的:

还有国际象棋,GPT-5 连基本的规则都搞不清楚,只过了四个回合就出现了非法移动(由于国王在 e7 处被皇后将军,因此兵不能移动 ) 。

即使是阅读理解,也同样被发现漏洞百出。

在多模态数数场景当中,GPT-5 也依然存在惯性思维。

面对被人类 P 成 5 条腿的斑马、5 个圆环的奥迪、3 条腿的鸭子,GPT-5 想当然认为它们是正常的斑马、奥迪和鸭子,并据此报出了与图片不相符的数目。

马库斯还表示,就连他的黑粉也不得不承认他说的对。

甚至在网友们的一片声讨之下,OpenAI 自己也不得不紧急恢复了被下线的 4o 模型。

马库斯:Scaling 无法实现 AGI

除了点名批评 GPT-5 的 " 罪状 " 之外,马库斯也分析了目前大模型 " 普遍存在的一些问题 "。

马库斯展示了一篇来自亚利桑那大学的研究论文,其中指出 CoT 在训练分布外失效,也就意味着大模型无法泛化。

按照马库斯的说法,这意味着即使在最新的、最强大的模型中,也存在与 1998 年的神经网络中相同的泛化问题。

马库斯指出,30 年未解决的 " 分布漂移问题 " 是大模型泛化能力不足的根本原因。

据此马库斯认为,GPT-5 的失败不是偶然,而是路线的失败。

他还表示,人们不该寄希望于通过 Scaling 来实现 AGI,Transformer 中的 Attention 也不是 All You Need。

最后,马库斯表示,转向神经符号(Neuro-symbolic)AI,才是克服当前生成模型泛化能力不足问题以及实现 AGI 的唯一真正途径。

参考链接:

https://kieranhealy.org/blog/archives/2025/08/07/blueberry-hill/

https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

希望了解 AI 产品最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马库斯 纽约大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论