新年新气象!AI 大神吴恩达2026 年目标公开:
要做一个新的图灵测试,他称之为图灵 -AGI 测试。
光看名字就知道,这个测试专为 AGI 而生。

去年是 AGI 水涨船高的一年,吴恩达在其年度总结中也曾表示:
2025 年或许会被铭记为人工智能工业时代的开端。
创新推动模型性能到达新的高度,AI 驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。
学术界和工业界频繁提及 AGI 概念,硅谷的公司也会为抢先 AGI 定下季度目标。
但关于 AGI 的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的 AI 水平。
吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。

正如网友所言:
要衡量智能首先要定义智能。

传统的图灵测试在 AGI 时代显然不够用。
它由艾伦 · 图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。
在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。
但现在的 AI 显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量 AI 工作能力的测试。
而这就是图灵 -AGI 测试的核心,要让 AI 像人类一样智能,并完成大部分的知识型工作。
测试对象将会是 AI 系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。

裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。
只要 AI 能够像人类一样熟练完成工作任务,就会被认为通过测试。
该测试将聚焦 AGI 的经济性和实际产出,更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。
它也会比基准测试更考验 AI 的通用能力。
现在几乎所有的 AI 基准测试,如 GPQA、AIME、SWE-bench 等,都会预先确定一个测试集。这意味着 AI 团队都会直接针对已发布的测试集来调整他们的模型。
这就导致很多 AI 模型榜单排名靠前,但真实物理世界中又能力不够。
去年闹得沸沸扬扬的 Llama 4 刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。

此外,固定测试集只能衡量 AI 在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。
在改进的图灵 -AGI 测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的 AI 或人类测试者均不会事先知道任务内容,这将比基准测试更能判断 AGI 水平。
同时为了校准社会对 AI 的期望,吴恩达表示,或许他将举办一场图灵 -AGI 测试,让所有 AI 参与其中。
即便最后的结果会是所有 AI 系统均未能达到标准,但也能平息长期以来对 AGI 的过度炒作。
这种降温将会为 AI 领域创造更稳健的环境,让行业重新聚焦于非 AGI 级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现 AGI 的营销噱头。
从长期来说,图灵 -AGI 测试也会为 AI 团队设定一个具体的努力目标,而非模糊地实现人类级智能。
倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵 -AGI 测试将会为真正的 AGI 突破提供可信的判定依据。
所以接下来,只需拭目以待。
参考链接:
[ 1 ] https://x.com/AndrewYNg/status/2008578741312836009?s=20
[ 2 ] https://www.deeplearning.ai/the-batch/issue-334/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
量子位智库 2025 年度「AI 100」榜单正式开启招募!
和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦