量子位 03-12
浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

基于大模型的 Agent,已经成为了大型的博弈游戏的高级玩家,而且玩的还是德州扑克、21 点这种非完美信息博弈。

来自浙江大学、中科院软件所等机构的研究人员提出了新的 Agent 进化策略,从而打造了一款会玩德州扑克的 " 狡猾 " 智能体 Agent-Pro。

通过不断优化自我构建的世界模型和行为策略,Agent-Pro 掌握了虚张声势、主动放弃等人类高阶游戏策略。

Agent-Pro 以大模型为基座,通过自我优化的 Prompt 来建模游戏世界模型和行为策略。

相比传统的 Agent 框架,Agent-Pro 能够变通地应对复杂的动态的环境,而不是仅专注于特定任务。

而且,Agent-Pro 还可以通过与环境互动来优化自己的行为,从而更好地达成人类设定的目标。

同时作者还指出,在竞争、公司谈判和安全等现实世界中遇到的情景,大多可以抽象为 multi-agent 博弈任务,而 Agent-Pro 通过对这类情境的研究,为解决众多现实世界的问题提供了有效策略。

那么,Agent-Pro 在博弈游戏中的表现究竟如何呢?

进化出游戏世界模型

在研究中,作者使用了 "21 点 " 和 " 有限注德州扑克 " 这两款游戏对 Agent 进行了评估。

首先简要介绍下两个博弈游戏的基本规则。

21 点

游戏中包含一个庄家和至少一名玩家。

玩家可以看到自己的两张手牌 , 以及庄家的一张明牌,庄家还隐藏了一张暗牌。玩家需要决定是继续要牌(Hit)还是停牌(Stand)。

游戏的目标是在总点数不超过 21 点的前提下,尽量使总点数超过庄家。

有限注德州扑克

游戏开始阶段为 Preflop 阶段,每位玩家将获得两张只属于自己且对其他玩家保密的私牌(Hand)。

随后,会有五张公共牌面 ( Public Cards ) 依次发出:首先翻牌(Flop)3 张,其次转牌(Turn)1 张,最后是河牌 ( River)1 张。

玩家有四种选择:弃牌(fold)、过牌(check)、跟注(call)或加注(raise)。

目标是利用自己的两张 Hand 和五张 Public Cards 任意组合,尽可能构造出最佳的五张扑克牌组合。

在 "21 点 " 当中,同样是使用 GPT-4 作为基础模型,Agent-Pro 的表现超过了 ReAct 框架。

在手牌相同的情况下,二者的表现如下图所示。

Agent-Pro 通过分析得出自我信念(Self-Belief)和对外部世界的信念(World-Belief),正确认识到自己的手牌已接近 21 点,合理的选择了停牌。

而 ReAct 则未能及时停牌,导致最终爆牌,输掉了游戏。

从游戏中能够看出 Agent-Pro 更好的理解了游戏的规则,并给出了合理的选择。

接下来再看看在德州扑克中 Agent-Pro 的表现。

一次牌局中,参赛选手分别是训练后的 DQN、DMC 策略,原生 GPT3.5 和 Agent-Pro(基于 GPT-4),他们的手牌和公共牌如下图所示:

S、H、C、D 分别代表黑桃、红桃、梅花、方块

在当前游戏状态(Current game state)下,Agent-Pro 分析得出 Self-Belief、World-Belief 和最终的 Action,并随着游戏状态的变化,不断更新 Belief,根据自身和对手的情况,做出灵活合理的选择。

相同牌局同一位置的 Baseline(原始大模型)结果为 -13

统计数据上看,21 点游戏中,在使用 GPT、Llama 等多种大模型的情况下,Agent-Pro 的表现都显著超过了原始模型和其他参与对比的 Agents 框架。

在更为复杂的德州扑克游戏中,Agent-Pro 不仅超过了原始大模型,还击败了 DMC 等训练后的强化学习 Agent。

那么,Agent-Pro 是如何学习和进化的呢?

三管齐下提高 Agent 表现

Agent-Pro 包括 " 基于信念的决策 "" 策略层面的反思 " 和 " 世界模型和行为策略优化 " 这三个组件。

基于信念的决策(Belief-aware Decision-making)

Agent-Pro 根据环境信息,首先形成 Self-Belief 和 World-Belief,然后基于这些 Belief 做出决策(Action)。

在后续环境交互中,Agent-Pro 动态更新 Belief,进而使做出的 Action 适应环境的变化。

例如,德州扑克游戏中:

环境信息可包括手牌(Private State)、公共牌(Public State)、行动轨迹(Trajectory)等;

Agent-Pro 对手牌(State)、出牌计划(Plan)及潜在风险(Risk)的预估等信息构成了它的 Self-Belief;

而 Agent-Pro 对对手(Opponent)、环境(Environment)和规则(Rule)的理解则构成了它的 World-Belief;

这些 Belief 在每一个决策周期中都会被更新,从而影响下个周期中 Action 的产生

策略层面的反思(Policy-Level Reflection )

与人类一样,Agent-Pro 会从历史经验、历史认知和历史结果中进行反思和优化。它自主调整自己的 Belief,寻找有用的提示指令,并将其整合到新的策略 Policy 中。

首先,Agent-Pro 以文字的形式设计了一个对任务世界的建模以及对行为准则的描述, 他们一起被当做 Policy:

World Modeling:任务世界的建模,例如对游戏环境的理解、对手们的风格分析、环境中其他 Agent 的策略估计等;

Behavioral Guideline:行为准则的描述,例如对游戏目标的认识、自己策略规划、未来可能面临的风险等

其次,为了更新 World Modeling 和 Behavioral Guideline,Agent-Pro 设计了一个 Policy-level Reflection 过程。

与 Action-level Reflection 不同,在 Policy-level 的反思中,Agent-Pro 被引导去关注内在和外在信念是否对齐最终结果,更重要的是,反思背后的世界模型是否准确,行为准则是否合理,而非针对单个 Action。

例如,德州扑克游戏中 Policy-level 的反思是这样的:

在当前世界模型和行为准则 ( World Modeling & Behavioral Guideline ) 的指导下,Agent-Pro 观察到外部状态,然后生成 Self-Belief 和 World-Belief,最后做出 Action。但如果 Belief 不准确,则可能导致不合逻辑的行动和最终结果的失败;

Agent-Pro 根据每一次的游戏来审视 Belief 的合理性,并反思导致最终失败的原因(Correct,Consistent,Rationality …);

然后,Agent-Pro 将反思和对自身及外部世界的分析整理,生成新的行为准则 Behavioral Guideline 和世界建模 World Modeling;

基于新生成的 Policy(World Modeling & Behavioral Guideline),Agent-Pro 重复进行相同游戏,来进行策略验证。如果最终分数有所提高,则将更新后的 World Modeling & Behavioral Guideline 和保留在提示中。

世界模型和行为准则的优化(World Modeling & Behavioral Guideline Evolution)

在 Policy-level Reflection 之上,面对动态的环境,Agent-Pro 还采用了深度优先搜索(DFS)策略评估,来持续优化世界模型和行为准则,从而找到更优的策略。

策略评估是指 Agent-Pro 在新的采样的轨迹中对新 Policy 进行更全面的评估,从而考察新策略的泛化能力。例如,德州扑克游戏中,新采样多条游戏轨迹。

通过交换玩家位置或手牌,来消除由于运气带来的随机因素,从而更全面评估新策略的能力。

而 DFS 搜索则在新策略不能在新的场景中带来预期的改进(策略评估)时使用,按照 DFS 搜索策略,从其他候选策略中寻找更优的策略。

论文地址:

https://arxiv.org/abs/2402.17574

Github:

https://github.com/zwq2018/Agent-Pro

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

浙江大学 德州
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论