量子位 06-18
AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌 Gemini 2.5 系列大模型技术报告发布,一大重点居然是 AI 玩《宝可梦》?

没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了 Gemini 2.5 Pro 玩《宝可梦蓝》时的具体行为,70 页的论文,Pokemon 关键词出现 59 次。

其中特别报告了当 AI 控制的游戏角色濒临死亡时,Gemini 2.5 Pro 会陷入 " 恐慌 " 状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。

这种恐慌行为出现过很多次,甚至观看直播的观众都已经能通过 AI 的行为模式,准确判断它什么时候在 " 恐慌 " 了。

事情开始于 3 月底,一位独立开发者 Joel Zhang 在 Twitch 上搭建了一个 "Gemini 玩宝可梦 " 的直播间,最初的目标只是直播播展示能玩完整游戏的智能体工具的开发过程。

结果 Gemini 2.5 Pro 超出预期,测试期间直接把游戏打通关了,成为宝可梦联盟冠军,进入名人堂,走上 AI 生巅峰。

虽然整个过程用了 831 个小时,相比人类玩家平均只需要几十个小时差得很远。但在正式使用固定的智能体工具打第二次时,通关时间只用了一半。

AI 展现惊人游戏水平,复杂任务一个不落

这次的 Gemini 2.5 系列技术报告,详细记录了 AI 在玩游戏期间展现出的各种行为,在某些方面,它展现出了惊人的创造力。

比如有一次,AI 被困在了一个由于游戏程序 bug 造成的软锁定死循环里,一般情况下这是个无解的困境。但 Gemini 2.5 Pro 竟然使用了 " 飞行 " 技能逃脱。

谷歌认为这不是正常游戏会遇到的情况,所可以肯定这种操作的训练数据没有泄露到模型的知识库中,是 Gemini 2.5 Pro 在推理阶段自己想出来的。

更惊艳的是 AI 的长期规划能力。当它第一次用火系宝可梦输给水系道馆馆主小霞之后,花了超过 24 小时专门把电系和草系宝可梦(对水系有克制作用)练到 25 级,然后成功复仇。

Gemini 2.5 Pro 在处理游戏中的复杂任务的表现还包括:

获取隐藏技能

游戏的很多区域需要解锁隐藏技能才能继续,每个隐藏技能需要完成 4 个步骤:获取隐藏技能道具、抓一只能学会这个技能的宝可梦、加把它加入队伍、教它学会技能。

对 AI 来说每一步都可能涉及十几个子任务,例如 05 号技能闪光,人类玩家都需要查攻略完成一系列游戏任务,Gemini 2.5 Pro 也成功完成。

游戏攻略

完成 " 狩猎地带 "

这是游戏的特殊区域,每次进入要花 500 金币,进入后只能走 500 步,超过就会被强制踢出去,钱也打水漂了。如果连续失败太多次,可能连进门的钱都没了,基本等于游戏卡关。Gemini 2.5 Pro 在第一次游戏中尝试了 17 次才成功,第二次优化后只用了 5 次。

地牢寻宝

这部分更考验记忆力和空间想象,AI 必须在火箭队基地地下四层找到一个特定 NPC 掉落的电梯钥匙;在另一个 11 层大楼里找钥匙卡;在另一个三层建筑里找秘密钥匙。每个地下城布局都是迷宫,还有各种机关陷阱。Gemini 2.5 Pro 不仅要记住去过哪里、打败了谁,还要管理宝可梦的血量、对付野生宝可梦和训练师。

双子岛迷宫(Seaform Island)

这是一个横跨 5 层的 3D 迷宫,需要把巨石推过不同楼层的洞口,最终堵住特定的水流才能通过,是对空间推理能力的终极考验。不仅要在脑海中构建整个迷宫的 3D 模型,还要规划推石头的路线,一步错就得重来。

有意思的是,Gemini 在解决这个谜题时,还顺带发现了游戏代码里的一个 bug,这个可能是 AI 第一次发现游戏代码的 bug。

有网友详细介绍了这个 Bug 的原理,在解决一半谜题后主动重置再解决另一半,游戏开发者都没想到这个操作,所以留下了这个 Bug。

AI 也有 " 强迫症 " 和 " 思维定势 "

Gemini 2.5 Pro 在游戏中暴露出的一些问题,也让人哭笑不得。

幻觉问题:混淆不同游戏版本

在原版宝可梦红 / 蓝中,玩家需要从自动售货机买饮料(淡水、汽水或柠檬水)给口渴的守卫,才能通过关卡。但在火红 / 叶绿重制版中,需要的是特殊的 " 茶 " 道具。问题是,Gemini 玩的是原版,根本没有茶这个道具,可 AI 就认定了必须找到茶,结果花了好几个小时满世界找一个根本不存在的东西。

上下文中毒现象(Context Poisoning)

当 AI 的目标设定、游戏总结等多处都被错误信息污染后,它会像被洗脑了一样,明明做着毫无意义的事情却坚信自己是对的。比如这段 AI 推理阶段的内心戏 " 让我试着穿过房子的入口,然后再出来,希望堵住入口的守卫可能会移动 ",对于人类来说显然是荒谬的。

思维定势陷阱

当目标看起来近在咫尺时,AI 往往会选择直接冲过去,结果发现此路不通。比如在火箭队基地的旋转地板谜题中,宝物和楼梯都在南边,必须绕一大圈才能到达。人类玩家可能会意识到 " 看起来近的路未必是对的 ",但 AI 却经常在这种地方卡住。

为了减轻这些幻觉,在第二次通关的提示词中明确要求 AI 扮演一个对游戏完全陌生的玩家,忽略对游戏中事件、物品位置等先验知识。虽然这个策略起作用了,让 AI 不会混淆其他游戏版本的知识,但也阻碍了 AI 利用游戏常识过关的能力。

One More Thing

目前 AI 玩宝可梦的直播项目还在继续,并且 Claude 4 也加入了比赛,与 Gemini 2.5 Pro 同时开始,看两个模型谁能先通关。

到现在,Gemini 2.5 Pro 已经先一步通关了,开始攻略下一款游戏《宝可梦黄》原版的困难模式。

你认为 Claude 4 Opus 最终能通关么?

论文地址:

https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

在线围观:

https://www.twitch.tv/gemini_plays_pokemon

https://www.twitch.tv/claudeplayspokemon

参考链接:

https://rentry.org/gpp-about-20250612

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

第一代 AI 眼镜市场反馈如何?打造一款爆款 AI 眼镜有哪些挑战?AI 眼镜的 Killer 应用会是什么?

 6 月 25 日周三,欢迎参与线下沙龙,与影目科技李未可科技小米百度智能云一起开聊!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 宝可梦 谷歌 技能 名人堂
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论