腾讯研究团队正在用《王者荣耀》重新定义 "AI 游戏智能 "。他们最新提出的 "Think in Games"(TiG)框架,首次让 AI 不仅会打游戏,还能清晰地解释自己为何这么打。
在实验中,这一 AI 系统通过对真实比赛数据的学习,不仅能制定完整的对局策略,还能用自然语言解释 " 为什么推上路 "" 什么时候控龙 " ——这是过去游戏 AI 和语言模型都难以同时做到的。
这项研究的目标,是弥合 " 会玩 " 与 " 会讲 " 的鸿沟。传统 AI 代理往往能操作游戏角色,却无法说明决策逻辑;而语言模型能讲战术,却无法实时应对复杂局面。Tencent 的 TiG 框架,正是为了让 AI 具备战略理解与解释能力的统一系统。
在训练中,研究团队选取了《王者荣耀》真实对局的匿名录像,包含胜负各半的数据集。AI 学习了 40 种宏观动作(如 " 推上路 "" 控龙 "" 防守基地 " 等),通过监督学习 + 强化学习两阶段训练,不断优化判断与策略。
强化学习阶段使用 " 奖励积分 " 机制:正确动作得分,错误则为零,从而持续强化决策能力。
令人惊讶的是,小模型的表现反而更出色。
实验结果显示:腾讯使用的 Qwen3-14B 模型,在经过 TiG 与 Group Relative Policy Optimization ( GRPO ) 优化后,战略判断准确率达到 90.91%,超过了体量更大的 DeepSeek-R1(86.67%)。
与此同时,GRPO 技术显著提高了模型稳定性和泛化性能——比如,Qwen2.5-32B 的准确率从 66.67% 跃升至 86.84%。
更值得注意的是,这些 AI 不仅能下指令,还能 " 讲思路 "。在测试中,它能分析敌方埋伏、识别薄弱防线,并主动推荐最优行动路径。研究团队认为,这一机制在未来有望被应用到其他需要 " 战略推理 + 可解释决策 " 的领域,如金融交易、工业调度或自动驾驶规划。
这一研究也揭示了 AI 发展的新方向:
真正强大的智能体,不只是 " 更大 ",而是 " 更懂因果、会讲逻辑 "。
腾讯的这一成果表明,在 AI 的下一阶段,比拼的已不再是算力堆叠,而是 " 策略思维 " 的深度融合。
登录后才可以发布评论哦
打开小程序可以发布评论哦