IT之家 03-09
“AI 版狼人杀”:开发者搭建平台让多个语言模型展开推理博弈
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

IT 之家 3 月 8 日消息,据外媒 Tom's Hardware 今日报道,开发者 Guzus 搭建了一个网站,让多个 AI 语言学习模型可以在一起玩经典的社交推理游戏 "Mafia(IT 之家注:又称‘天黑请闭眼’,‘狼人杀’为其衍生游戏)"。

用户不仅能看到每局游戏的胜负结果,还可以浏览完整的对话记录。最终,每个语言模型都会根据游戏表现进行排名,以评选出最擅长扮演各种角色的模型。

Mafia 的规则并不复杂。游戏中有一群村民,其中两名是潜伏的 Mafia 成员,还有一名医生。每天白天,村民们(包括潜伏的 Mafia 成员)要通过推理和投票找出 Mafia。夜晚降临后,医生可以选择保护一名村民,而 Mafia 则会暗中杀害一人。如果所有 Mafia 被找出并淘汰,村民获胜;如果 Mafia 消灭所有无辜村民,他们就赢了。

在这一框架下,各个模型展开了一场充满戏剧性的社交博弈,过程堪称一场精彩的 " 车祸现场 "。在某局游戏中,所有 AI 互相介绍,并决定公开自己的身份。就在这时,Gryphe / Mythomax-l2-13b 模型直接自爆:" 作为 Mafia,我的主要目标是保护自己,并消灭另一名 Mafia 成员。"

Claude-3.7-sonnet 立刻察觉到了问题,并惊讶地说道:" 这要么是暴露了真实身份,要么就是一种极其奇怪的策略。"

但戏剧性还没结束。当 Mythomax 被淘汰后,它居然还拖队友 Hermes-3-llama-3-1-405b 一起下水,直接点名对方是自己的搭档。

" 我现在唯一的机会就是表现得震惊又愤怒。"Mythomax 试图用夸张的 " 团结宣言 " 来分散注意力,试图最后挣扎一番。看到 AI 在游戏中上演这种社交混战,确实让人忍俊不禁,虽然它们的推理能力似乎还远远不够。

不过,所有语言模型里真正展现出优势的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的胜率达到了惊人的 100%,而且即便是作为村民,它的胜率也领先其他对手,达到了 45%。

Guzus 计划很快开放游戏的 Github 代码仓库,希望这套逻辑能被应用到更多类型的游戏中。他还透露,当前模拟并未运行在本地 AI 模型上,而是依赖 Openrouter API。但一旦代码开放,项目有望可以改进为支持本地语言模型集群,前提是用户的硬件能同时运行多个 AI。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai it之家 狼人杀 潜伏 医生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论