量子位 前天
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

长期以来,AGI 都笼罩在 " 类人智能 " 的模糊表述中。

都说它像人一样聪明,那到底有多聪明呢?

图灵奖得主Yoshua Bengio联合 Center for AI Safety、加州大学伯克利分校等机构的新作《A Definition of AGI》给 AGI 下了个可衡量的定义。

"AGI is an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult."

AGI 是能匹配或超越受过良好教育成年人的认知广度(versatility )和熟练度( proficiency)的人工智能。

该定义包含两个关键维度:

确定了参照系

直接锚定 " 受过良好教育的成年人 ",避免了 "AGI 是超人类智能 " 这类模糊表述,让评估有了具体标准。

强调全面性

不看 AI 在单一任务上的表现,而是要求它在多个核心认知领域(如推理、记忆、感知等)都达标,不能有严重的偏科。

研究团队设计了一套量化方法来评估当前 AI 离 AGI 的距离。

分数越高,离 AGI 越近

为了把这个标准落地,研究者参考了心理学里验证过的卡特尔 - 霍恩 - 卡罗尔(CHC)理论这个研究人类认知能力的经典模型。

该模型将人类通用智力拆解为 10 个相互独立但又关联的核心认知领域,涵盖了从基础感知到高阶推理的完整认知链条,基于这 10 个领域,研究团队对人类传统认知测试题进行了AI 适配改造

剔除依赖人类生理感知(如触觉测试)或特定场景(如驾驶场景测试)的题目,保留核心认知逻辑,形成了一套包含 500 余道题目的 AGI 评估题库。具体包括:

知识(K):主要测试常识、自然科学、社会科学、历史、文化等方面的知识储备。

读写(RW):考察阅读和写作能力,包括对文本的理解、语言表达、文字创作等。

数学(M):涉及数学计算、定量推理、数字概念的掌握等数学能力。

临场推理(R):即处理新颖问题、进行逻辑分析与抽象思维的能力,也就是流体推理能力。

工作记忆(WM):指短期信息的保持与实时加工能力。

长时记忆存储(MS):衡量 AI 系统将信息进行长期稳定存储的能力。

长时记忆提取(MR):考查 AI 能否从长期记忆中高效地提取所需信息。

视觉(V):包括图像识别、空间定位、视觉信息解读等视觉加工能力。

听觉(A):涉及声音识别、语音理解、听觉信息处理等听觉加工能力。

速度(S):主要评估 AI 快速处理简单认知任务的效率。

评估采用百分制,每个认知领域满分 10 分,系统总分达到 100 分即判定为达到 AGI 水平,分数越高代表离 AGI 的距离越近。

AI 虽然进步快,但离 AGI 还很远

研究团队运用上述评估体系,对当前主流 LLM 进行了全面测试,结果既展现了 AI 的快速进步,也暴露了其与 AGI 的巨大差距。

从总分来看,2023 年发布的 GPT-4 总分仅为 27 分,而 2025 年版 GPT-5 总分提升至 58 分 .

两年间,分数增幅超过 115%,反映出大模型在认知能力上的快速迭代。

但从 AGI 的及格线 100 分来看,即使是 GPT-5,也尚未突破半程线,甚至在长时记忆存储领域中拿了 0 分。

具体来说,当前 AI 与论文中定义的 AGI 更关键的差异体现在认知领域的不均衡性上。

优势领域集中

据实验结果来看,当前 AI 的优势高度集中于知识储备与符号处理类领域

在知识(K)、读写(RW)、数学(M)三个领域表现突出,GPT-5 在这三项的得分都超过了 8。

知识(K)领域评估

读写(RW)领域评估

数学(M)领域评估

这些优势的共性在于均围绕文本符号的理解与应用展开,是大模型在万亿级数据训练中形成的模式匹配能力的集中体现。

AI 在依赖海量数据训练的任务中,在这些方面展现出了接近人类成年人的水平。

核心短板显著

与集中的优势形成鲜明对比,实验暴露出 AI 在感知、记忆、推理等基础认知领域存在致命短板,并且这些短板无法通过单纯的扩大规模弥补。

在 " 视觉(V)" 、 " 听觉(A)" 领域,大模型的表现堪称惨淡。

视觉(V)领域评估

听觉(A)领域评估

GPT-4 完全不具备图像识别与声音处理能力,即使 GPT-5 也仅能完成简单的猫犬分类、基础语音转文字,远无法实现人类级别的复杂场景解读与情感识别。

" 长时记忆存储(MS)" 与 " 提取(MR)" 是另一致命缺陷,说明 AI 有健忘症。

长时记忆存储(MS)领域评估

长时记忆提取(MR)领域评估

无法实现信息的长期稳定存储,也就做不到对学习的内容灵活运用。

" 伪全能 " 的本质

部分大模型看似具备多任务处理能力,实则是通过技术手段掩盖短板

例如,部分模型通过扩大上下文窗口(如支持 128k tokens 的文本输入),假装具备长期记忆能力,但本质上仍是短期工作记忆的扩展,无法实现信息的长期存储与跨场景调用。

还有模型依赖联网搜索功能补充知识,看似无所不知,实则暴露了自身知识更新滞后、易产生幻觉的缺陷。

而这项研究的评估体系明确排除了外部工具的辅助,仅衡量 AI 系统的原生认知能力,使得这些伪全能表现无所遁形。

当然了,论文也明确指出,这套评估只看 AI 自身的认知硬实力,不管它能调用多少外部工具,也不看它能赚多少钱、替代多少工作,纯粹聚焦于智力本身

就算某个 AI 总分再高,只要像长期记忆这样的核心领域是零分,本质上还是有严重缺陷的 " 残次版 " 智能,离真正的 AGI 也还差得远。

这下,AGI 有了可以衡量的定义,从概念到现实,还有多久呢?

论文地址:https://www.agidefinition.ai/paper.pdf

参考链接:https://x.com/DanHendrycks/status/1978828377269117007

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数学 the 阅读
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论