量子位 18小时前
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

新年新气象!AI 大神吴恩达2026 年目标公开:

要做一个新的图灵测试,他称之为图灵 -AGI 测试

光看名字就知道,这个测试专为 AGI 而生。

去年是 AGI 水涨船高的一年,吴恩达在其年度总结中也曾表示:

2025 年或许会被铭记为人工智能工业时代的开端

创新推动模型性能到达新的高度,AI 驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

学术界和工业界频繁提及 AGI 概念,硅谷的公司也会为抢先 AGI 定下季度目标。

但关于 AGI 的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的 AI 水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。

正如网友所言:

要衡量智能首先要定义智能。

传统的图灵测试在 AGI 时代显然不够用。

它由艾伦 · 图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的 AI 显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量 AI 工作能力的测试。

而这就是图灵 -AGI 测试的核心,要让 AI 像人类一样智能,并完成大部分的知识型工作。

测试对象将会是 AI 系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。

裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要 AI 能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦 AGI 的经济性和实际产出,更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验 AI 的通用能力

现在几乎所有的 AI 基准测试,如 GPQA、AIME、SWE-bench 等,都会预先确定一个测试集。这意味着 AI 团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多 AI 模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的 Llama 4 刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。

此外,固定测试集只能衡量 AI 在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵 -AGI 测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的 AI 或人类测试者均不会事先知道任务内容,这将比基准测试更能判断 AGI 水平。

同时为了校准社会对 AI 的期望,吴恩达表示,或许他将举办一场图灵 -AGI 测试,让所有 AI 参与其中。

即便最后的结果会是所有 AI 系统均未能达到标准,但也能平息长期以来对 AGI 的过度炒作。

这种降温将会为 AI 领域创造更稳健的环境,让行业重新聚焦于非 AGI 级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现 AGI 的营销噱头。

从长期来说,图灵 -AGI 测试也会为 AI 团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵 -AGI 测试将会为真正的 AGI 突破提供可信的判定依据。

所以接下来,只需拭目以待。

参考链接:

[ 1 ] https://x.com/AndrewYNg/status/2008578741312836009?s=20

[ 2 ] https://www.deeplearning.ai/the-batch/issue-334/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库 2025 年度「AI 100」榜单正式开启招募!

和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

图灵测试 ai 图灵 基础设施 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论