12大模型同台、超1800万人参与，联想在世界杯为中国AI搭建“裁判台”

来源：市场资讯

当四年一度的绿茵狂欢遇上席卷全球的 AI 浪潮，一场关于算法与经验、理性与直觉的终极博弈正在真实上演。

6 月 24 日，由联想集团与咪咕联手打造的国内首档 AI 大模型深度参与的世界杯直播真人秀《人机大战：谁是世界杯预言家》将正式在咪咕视频开播。苏醒、詹俊、韩乔生、阎鹤祥、孙继海、张踩铃等嘉宾将与 12 大 AI 模型同台比拼，预测世界杯的胜负与比分。

而在节目开播之前，一场真刀真枪 " 打 " 了 13 天、覆盖全部世界杯赛程、吸引超千万人参与的 " 世界杯预测人机大战 "，已经率先打响。

自世界杯揭幕以来，由联想旗下天禧 AI 超级智能体担任召集者，汇聚 DeepSeek、Kimi、百度文心、千问、中移九天等 11 大 AI 模型，组局 12 大 "AI 战队 "，围绕本届世界杯全部 104 场比赛逐场亮出预测，并与人类球迷展开实时较量。

这不仅是全球首个 AI 团体与全民同场预测的世界杯人机对决，也成为中国大模型第一次在全球顶级赛事中接受真实世界检验。对于所有参赛模型而言，这是一场不能提前 " 对答案 " 的公开考试。

一场逆袭：AI 如何在 13 天里反超人类

开赛之初，AI 并没有赢得掌声。

第一轮小组赛，冷门频出。最典型的案例发生在西班牙与佛得角之间。赛前，12 大 AI 没有一家选择平局，11 家预测西班牙大胜，1 家反向押注佛得角，但所有模型都默认了一件事——这场比赛一定会有进球，且分出胜负。

然而当终场哨声响起，比分却是 0:0。

同一天，伊朗对阵新西兰一役再次让 AI 阵营集体失准。这场赛前看似悬念不大的比赛，让 12 家模型赛前给出了难得一见的满票共识——全部预测伊朗取胜。但最终双方以 2:2 握手言和，12 大 AI 无一命中。

那一天的 4 场比赛中，12 大 AI 共做出 48 次胜平负判断，只命中了 1 次。截至当时，AI 预测准确率仅为 35%，大幅落后于人类阵营。

然而，拐点很快出现。随着第二轮小组赛进入 " 强队收割 " 模式，美国 2:0 澳大利亚、荷兰 5:1 瑞典等预期内的结果接连兑现，AI 阵营的预测准确率开始显著拉升。中移九天、百度文心、DeepSeek、千问、联想天禧 AI 等模型出现连续多场命中的表现，整体命中率快速攀升。截至 6 月 24 日，12 大 "AI 战队 " 的整体准确率已攀升至 57%，反超人类玩家 52.5% 的整体准确率水平。

4.5 个百分点的差距看似不大，但从近日的胜率走势来看，两条曲线的方向已经清晰分开—— AI 的线在持续爬升，人类的线基本走平。

模型排名方面，综合 46 场赛事的预测数据，中移九天以 63% 的预测胜率暂居榜单第一；联想天禧 AI、千问、腾讯混元等多款模型以 60.9% 的胜率并列第二梯队。

更重要的是，这份排名，没有任何一家 AI 公司有机会提前知晓，也没有任何人有能力提前设计。世界杯的赛果由场上 22 名球员决定，而不是由模型决定。正因如此，这些数据才拥有特殊价值。

一把标尺：为什么这批数据的意义不一样

理解这场实验的价值，需要先理解中国 AI 行业过去几年是如何验证自身能力的。

长期以来，大模型的能力评价主要依靠三种方式：基准测试、产品数据和事件营销，但三者都存在天然局限性。基准测试发生在实验室环境里，与真实世界的复杂性相距甚远；产品数据掌握在各家公司自己手中，难以横向比较；事件营销能够制造声量，但声量不等于能力。这三种路径共同的问题是：结论的产生方式可以被设计，而被设计的结论，其公信力天然存在折扣。

世界杯则提供了一种截然不同的验证框架。

每一场比赛开打前，12 大 AI 模型必须在同一套规则下亮出自己的判断，赛果由 22 个球员在场上决定，不受任何 AI 公司的控制。判断一旦公开，不能事后修改；赛果一旦落地，即时验证。这个机制持续覆盖 104 场比赛，产生的是一个在真实世界中被逐场检验的能力样本，而不是实验室里的推算数字。

13 天积累下来的数据，已经呈现出清晰的规律：AI 擅长秩序题，不擅长陷阱题。当强弱关系清晰、比赛按照实力展开时，AI 的命中概率极高；当足球进入平局、冷门、临场波动和情绪变量主导的时刻，AI 会迅速失去把握。这个结论不是任何一家参赛模型说的，是 104 场比赛的赛果一场一场呈现出来的。

对于中国 AI 行业而言，这批数据的含金量在于它的 " 不可篡改性 " ——它是在全民围观、实时验证、结果无法回溯修改的条件下产生的。这在国内 AI 能力验证的历史上，几乎是第一次。

而让数据更有意义的，是超千万人的参与基数。人类预测阵营的 52.5%，构成了一个真实的、有规模支撑的比较基准线。AI 赢的，不是一个虚设的假想对手，而是超过千万量级的真实判断样本。

一张入场券：为什么联想能搭这个台

这个验证框架之所以存在，有一个前提条件：必须有人能拿到世界杯这张入场券。

联想集团是 2026 年 FIFA 世界杯官方技术合作伙伴，正以端到端全域 AI 技术深度参与本届世界杯核心技术体系建设。这个身份不是营销标签，而是真实的深度技术嵌入。

在这届世界杯上，联想部署了 FIFA AI Pro 世界杯足球 AI 超级智能体，为全部 48 支参赛球队提供战术分析支持；联想 3D 数字人可视化方案将越位判定精度提升至 " 头皮级 "，为全部 1263 名球员建立数字分身，从而帮助世界杯半自动越位判罚的可视化呈现；联想历时不到一年时间自研打造的裁判视角 AI 视频增强系统，更是首次将裁判第一视角稳定接入全球直播，将画面清晰地呈现在全球观众眼前。

此外，联想还参与运营了达拉斯国际广播中心、迈阿密赛事运营中心和迈阿密技术指挥中心等核心节点的运行，实时保障着三国 16 城的赛事运转。

这种深度参与世界杯赛事运营的能力，不是任何 AI 厂商可以单独复制的入场路径，也让联想拥有了搭建世界杯预测实验场的独特条件。

在此基础上，联想天禧 AI 以 " 召集者 " 的角色发起人机大战，召集国内 11 家主流 AI 同台亮出预测，以赛果为唯一的评判标准。这个设计本身就确保了实验的公信力：没有任何一家参与者能够掌控结果。

最终，" 世界杯预测人机大战 " 打造出全球首个 AI 团体与全民同场预测的世界杯人机对决，吸引了超 1800 万用户实际参与——这个规模，让它从一个品牌活动，变成了一个具备统计意义的公开实验。

裁判台上的位置，不只是联想一家的收益

把上述三件事放在一起看，就能理解联想在 2026 年世界杯的这步棋的真正价值所在。

它不只是一次有声量的品牌营销。联想通过人机大战搭建的，是中国 AI 行业第一个在真实世界中持续运行、全民可见、无法事后修改的能力验证公共平台。在这个平台上，各家大模型的真实表现被逐场记录，AI 能力的边界被一点点摊开给所有人看。这个 " 裁判台 "，给了中国 AI 行业一个此前从未有过的公共能力坐标。

对联想而言，它占据的是这个坐标系的搭建者和运营者位置——不是一个大模型，而是一个能把大模型拉到同一张答卷上、让真实世界来评判的平台型角色。

这个角色，在 AI 产业从 " 百模大战 " 向真实场景落地的过渡阶段，具有不可忽视的战略价值。当大模型们都在寻求更多的真实场景验证时，能提供这种验证机会的平台，本身就是一种稀缺的基础设施。

6 月 24 日 21:00，《人机大战：谁是世界杯预言家》节目的上线，是这场实验从 " 数据可读 " 升级为 " 过程可看 " 的节点。节目的 20 场直播、嘉宾与 AI 同台的公开预测、每场赛后的实时复盘，会将这个裁判台的影响力从千万参与者扩展到更大量级的观众，成为实验进入更大舞台的开始。

截至目前，人机大战仍在进行中，后续赛程的数据还在持续产生。这场实验的完整结论，要等 104 场比赛全部打完才能落定。但有一件事已经清晰：在 2026 年这个 "AI 世界杯元年 "，联想选择了一种比喊口号更扎实的方式来证明 AI 的价值——让真实的赛果，替中国 AI 说话。

宙世代

一起剪

相关标签