AI跑分越来越没意义，谷歌说不如让AI一起玩游戏

时隔八年，在生成式人工智能问世之后，谷歌又搞了一次 "AI 棋王争霸赛 "，OpenAI o4-mini、DeepSeek-R1、谷歌 Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct 等中美两国 AI 业界的顶流模型，将捉对厮杀。

据谷歌方面介绍，此次比赛旨在通过策略游戏中的正面交锋，评估并推动 AI 模型在复杂推理和决策能力上的进步，从而解决现有基准测试难以跟上模型发展速度的问题。同时他们此次赛事也是为了宣传自己的 Kaggle Game Arena 平台，而后者则是谷歌推出的一个全新的、公开的基准测试平台。

与目前常规的 AI 基准测试不同，Kaggle Game Arena 的测试题目是 " 策略游戏 "。谷歌之所以推出一个让 AI 玩游戏的平台，是因为当下传统的 AI 基准测试已经陷入瓶颈，难以反映旗舰模型的真实能力。简单来说，或为名、或为利的 AI 厂商，已经将各种 AI 基准测试给玩坏了，所以作为业界巨头，谷歌选择站出来正本清源。

其实在这一轮 AI 浪潮中，" 钱不值钱了 " 是一个很特别的现象。以往独角兽通常指的是成立时间较短，估值超过 10 亿美元、且未上市的科技创新企业。可现在只要创始人有一定的技术背景，一家 AI 初创企业拿到 10 亿美元的估值几乎像吃饭喝水一样简单。

甚至出现了 Builder.ai 这种宣称人工智能编程，实际上全靠印度程序员手写代码的骗子公司。对于这一现象，金融业给出的答案是他们对 AI 革命可能会带来的机遇 " 错失恐惧 "（FOMO），并促使其挥舞着钞票投向一切像模像样的 AI 公司，因此也造就了围绕 AI 的非理性繁荣。

如此一来，创业者利用弥漫在投资市场的 AI FOMO 情绪推高公司估值也在情理之中。那么，要如何让自己的 AI 初创公司变得更有价值呢？由于当下的 AI 技术实在过于高深，投资者们判断一家 AI 公司实力的方法很简单，跑分高的就是好标的。

" 不服跑个分 " 顺势也就成为了一众 AI 企业宣传自己产品的核心手段，如果有经常关注 AI 相关消息，想必就会对 LMArena 基准测试、大模型竞技场 Chatbot Arena 等榜单不陌生。当跑分成绩与融资捆绑在一起，一个让数码爱好者、手游玩家熟悉的操作也开始浮出水面，那就是 " 刷榜 "。

目前市面上评测大模型能力的基准测试可谓五花八门，主要包括知识推理、数学和编程。以知名 AI 开源社区 HuggingFace 出品的榜单为例，其主要是评测大模型遵循指令的能力，以及 AI 模型在长文本中进行多步骤推理能力等方面。

与 PC 上的 3DMark、手机上的安兔兔一样，AI 基准测试也是通过设定一系列客观且可复现的场景，来测试 AI 模型在不同领域的能力。然而为了可复现和一致性，AI 基准测试自然就会缺乏灵活性，所以也就有了 " 刷榜 " 的空间。AI 模型通过自身的记忆能力在一次次测试中记下基准测试数据集中的题目，然后再针对性的进行训练，最终就可以跑出高分。

例如在 GSM8K、MATH 等测试 AI 模型数学能力的测试集中，GPT-4o、Gemini 1.5 Pro 等模型动辄就能获得 80% 以上的超高正确率，甚至还出现了基准测试一方主动配合 AI 厂商刷榜的情况。此前在今年春季，Meta 的新一代开源模型 Llama 4 史诗级翻车，出现了跑分力压群雄，实际表现却一言难尽的情况。对此就有 AI 研究人员发现，Llama4 在发布前针对大模型竞技场 Chatbot Arena 测试了 27 个不同版本，却只公开了最佳成绩。

由此不难发现，基准测试已经变得越来越难以衡量 AI 模型，特别是拥有目前最高水平的 "State-of-the-Art" 模型。因此谷歌就开发了 Kaggle Game Arena，搞了场 "AI 国际象棋棋王争霸赛 " 来作为擂台，让各大厂商的旗舰模型有秀出上限的机会。

那么为何谷歌会选择游戏来作为测试大模型能力的场景呢？按照他们的说法，游戏这种在既定规则下的随机，非常适合衡量 AI 的智能，有明确的规则约束 AI，就使得它不会放飞自我，足够强的随机性又能让其展现出能力上限。此外，游戏也具备结果可衡量、过程可视化、推理可验证，以及零和博弈的特点。

事实上，游戏与 AI 业界有着密不可分的关系。以 OpenAI 为例，对于普通人而言，这个名字走入视野是因为划时代的 ChatGPT，而对于《DOTA2》的玩家来说，OpenAI 在 2019 年就给他们留下了难以磨灭的印象。彼时，OpenAI 的 OpenAI Five 程序轻而易举地击败了冠军战队 OG，初步向外界证明了 AI 不仅征服了棋类对弈，在更复杂的电子竞技游戏中也能压倒人类。

根据前 OpenAI 首席科学家 Ilya Sutskever 与黄仁勋对话时的说法，通过为《DOTA2》开发 OpenAI Five，OpenAI 的训练模式从 " 强化学习 " 转变为了 " 基于人类反馈的强化学习（RLHF）"，而后者就正是 ChatGPT 表现出比以往 AI 产品更为智能的关键。

如果 AI 可以打好游戏，不仅可以证明智能水平，而且也有极高的商业化前景。要知道游戏厂商可是做梦都想要获得更智能的 NPC，用来提升玩家体验的。

【本文图片来自网络】

宙世代

一起剪

相关标签