钛媒体 昨天
AI预测世界杯集体翻车:当算法遇到足球,暴露的到底是什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_tiyu1.html

 

文 | 舒书

2026 年 6 月 14 日,美加墨世界杯小组赛 C 组首轮,FIFA 排名第 6 的巴西对阵第 7 的摩洛哥。赛前,联想天禧 AI 平台集结的 12 家大模型参与人机大战预测,AI 阵营一致看好巴西取胜。结果,1 比 1。

这是开赛以来 AI 阵营共识度最高的一次判断,也是最具代表性的一次集体失分。

一、AI 为什么集体失算?

第一层:数据层——联赛数据训练出的系统性偏见

业内技术测算显示,面向足球赛事分析的通用大模型,训练样本中俱乐部联赛赛事占比普遍超七成,国家队杯赛样本体量偏低,天然形成对杯赛首轮保守打法的数据盲区。世界杯作为赛会制杯赛,各队在首战往往以试探和防守为主,战意保守导致平局率较高。

从近五届世界杯首轮数据看,平局比例在 25%-37.5% 之间波动:2010 年南非世界杯首轮 16 场出现 6 场平局,平局率高达 37.5%;2014 年巴西世界杯首轮 5 场平局,占比 31.3%;2018 年俄罗斯世界杯首轮 5 场平局,占比 31.3%;2022 年卡塔尔世界杯首轮 4 场平局,占比 25%。

而作为参照的五大联赛中,英超平局率约 27%,意甲约 29%,德甲约 24%。世界杯首轮平局率在多数年份显著高于联赛水平,这正是模型系统性误判的结构性根源。

第二层:模型层——共识陷阱与信息幻觉

12 家 AI 模型——联想天禧 AI、千问、百度文心、腾讯混元、DeepSeek、Kimi、智谱、MiniMax、阶跃星辰、讯飞星火、商汤小浣熊、中移九天——全部给出巴西取胜的判断,有的甚至预测 2 比 0、3 比 0。

当所有模型给出完全一致的答案时,看似是算法的确信,实则暴露出模型在训练数据、推理路径和强队偏好上的严重趋同。算法越趋同,一旦判断错误,集体失分的风险就越高。这是一种共识陷阱——过度依赖强队底蕴、身价等宏观数据,对具备极强战术执行力和防守韧性的非传统强队缺乏敏感度。

值得注意的是,有 AI 在分析中给出了摩洛哥近 5 年对巴西保持全胜的理由。然而,根据专业足球媒体的赛前分析,两队历史上实际交锋仅 3 次,巴西 2 胜 1 负,摩洛哥唯一一场胜利是 2023 年 3 月的友谊赛,距今仅三年,根本构不成近五年全胜。

所谓近 5 年全胜实为 AI 生成的虚假信息。这类幻觉源于通用大模型缺乏实时检索校验机制,仅依靠训练数据概率推演;两队交锋属于极小样本,模型无法精准切割时间区间,直接将单场友谊赛胜利泛化为近五年全胜,用虚构论据支撑预判。

这不仅是一个数据错误,更暴露了 AI 在信息整合中的结构性缺陷——它在编造历史时,自己都不知道自己在编造。

需要区分的是,本次集体翻车的 12 款均为通用对话大模型,并非针对足球赛事专项训练的垂直 AI。成熟体育垂直预测系统会单独对杯赛首轮保守战术、球星伤病、场地温湿度做特征微调,二者预测逻辑本身存在代差。如果使用的是垂直模型,平局预判的概率可能会高出不少。

客观看待:AI 的基础信息能力并未失效

需要客观看到,AI 虽错判最终胜负,但 12 个模型全部精准识别出巴西阵容实力底色、内马尔进攻核心地位等基本面信息。AI 批量整合海量数据、梳理多维信息的基础能力稳定可靠,短板集中在非线性胜负结果推演。

第三层:环境层——不可量化的变量被系统性低估

巴西主教练安切洛蒂在赛前确认,内马尔因小腿二级损伤缺席首战。这是赛前已知的关键信息,但 AI 模型的训练数据大量包含内马尔巅峰时期的进攻胜率——该变量被遗漏或低估,直接导致模型高估巴西实力。数据越旧,偏差越大;模型越依赖历史,对此刻的判断就越脆弱。

此外,本场比赛在纽约新泽西体育场(MetLife Stadium)举行,当地夏季气温较高,比赛当日体感温度超过 30 ℃,高温高湿环境影响球员体能和战术执行。赛前该地区还遭遇暴雨袭击,一度引发比赛延期担忧。世界杯在美加墨三国多地举行,不同比赛面临的环境差异巨大——墨西哥城的高海拔(超过 2200 米)、北美夏季的高温高湿——这类极端环境因素直接影响球员体能和战术执行,却在传统数据模型中被当作噪音过滤。摩洛哥球员大多在欧洲联赛效力,对高温高湿环境的适应能力不如在当地踢球的球员,这一变量同样未被纳入模型。

二、AI 在足球预测中的错误,对商业决策有什么警示?

把足球预测类比到商业决策,需要先承认两者的本质差异:足球是 90 分钟一次性博弈,对手可半场临时变阵、球员心态波动无补救窗口;商业决策以月 / 季度为周期,可小范围灰度测试、动态调整,竞品策略传导慢。足球胜负高度掺杂体能、临场心态、裁判尺度这类极难量化的人体情绪变量;商业营收、供应链、消费者行为量化指标更多、采集更稳定。

但共通的风险在于:当 AI 被当作决策者而非参考工具时,都会翻车。

智源研究院院长王仲远在 2026 北京智源大会上指出:当前商用通用大语言模型的主流生成范式为逐 Token 概率预测——从海量数据中寻找统计规律。但在真实物理世界,现有模型还有很大局限性。模型可以告诉你历史上强弱对战胜率 85%,但它不知道今天的 85% 会不会是那 15%。

杨立昆在 2026 年 5 月的访谈中直言:大语言模型本身并没有问题,但它们不是通往真正智能的道路。"LLM 非常擅长语言处理,但是现实世界比语言复杂得多 "。他批评自回归 LLM 不适合做复杂决策,但并非全盘否定 AI 的价值。正如他所说,需要范式转变这一认知正在发生,而产业界已经开始意识到这一点。

据 MIT 研究,AI 模型在生成错误内容时,使用自信语气的概率比生成正确内容时高出 34% ——它在编造时,听起来反而最可信。这一判断在企业 AI 应用中也被验证。MIT NANDA 项目组发布的《2025 年 AI 商业现状》报告显示:仅有 5% 的生成式 AI 试点进入生产阶段并产生可衡量的损益影响,95% 的项目未产生可见回报。核心障碍不是基础设施或监管,而是学习能力——大多数 AI 系统无法保留反馈、适应情境或实现持续改进。这正是杨立昆所说的需要范式转变的产业映证。

三、给组织的三条提醒

1. 共识度越高,集体翻车的风险越大。

12 个 AI 模型一致看好巴西,然后一起错。当所有模型给出同一结论时,看似是算法的确信,实则是风险的高度集中。算法越趋同,一旦判断错误,集体失分的风险就越高。这不是 AI 的问题,是任何依赖统计规律的系统的共同命运——当所有人都用同一套数据、同一套方法论、同一套评估框架时,共识本身就是最大的风险敞口。

实操方案:强制要求模型输出置信度而非二元结论;要求模型列出可能导致预测失败的条件作为交付物的一部分;在金融投研、消费品投放中,同时跑 2-3 套不同架构的模型(如通义千问、文心、GPT),用投票机制处理冲突预测,设置悲观 / 中性 / 乐观三套情景测算,而非依赖单一概率结论。

2. 预测≠决策。

在世界杯预测里,AI 可以错,无非猜错了继续猜。但在商业决策里,一次错误的押注可能影响一整年。

AI 幻觉的产生与大模型训练机制密切相关:AI 的知识基本来源于训练数据,当某个领域专业数据不足时,AI 便可能通过模糊的统计规律来填补空白。多家 AI 安全监测报告证实,大模型输出虚构幻觉内容时,语气自信程度普遍高于真实准确回答,极易误导决策者。

实操方案:用 AI 测算新品投放概率时,同步设置止损预算、小范围灰度测试,分阶段放量。

第一阶段:预算 5%,验证数据与 AI 预测的一致性;

第二阶段:数据达标后扩至 15%,持续监测偏差;

第三阶段:前两阶段通过后全量投放(比例可根据业务风险偏好调整)。明确区分 AI 建议和最终决策之间的责任边界。

3. 人的护城河不在于所有人,而在于少数人。

在这场人机大战中(联想天禧 AI 内部活动统计),总参与人数约 28 万,超过 90% 的人类用户同样押注巴西取胜。真正命中平局的约 2.8 万人,占比约 10%。不止普通用户,各大体育媒体球评、专业足彩分析机构赛前研判也全部倾向巴西取胜。统计惯性对人类专业从业者同样具备强束缚力,人类整体预判翻车率和 AI 高度接近,不能只放大少数高手,忽略普通人一样被统计惯性束缚。

那些成功预测平局的冷门捕手,有人是因为记住了摩洛哥 2022 年连克西班牙、葡萄牙的铁血防守,有人是察觉到了内马尔伤缺的影响,有人则是凭借对摩洛哥巴西克星属性的记忆和对强队底蕴的质疑,跳出了强队必胜的框架。这说明 AI 无法替代的,不是普通人的判断,而是少数人基于碎片化信息的深度洞察。不是每个人都需要成为少数派,但组织需要为少数派保留通道。

实操方案:建立红队机制——指定专门团队在决策前寻找 AI 结论的漏洞,模拟 " 如果 AI 错了,会是因为什么 "。季度战略会前,红队单独输出《AI 结论失效风险清单》,纳入董事会必审材料。中小企业无需专职红队,可执行轮岗质疑制:每轮决策随机指派一名员工,专门输出 AI 结论的负面失效推演清单,低成本搭建异质性挑战通道。这不是要求每个人成为少数派,而是在组织中保留一个能够挑战共识的异质性通道。

四、结语

巴西被逼平,12 家 AI 集体翻车。这是一个关于 AI 能行到哪一步的客观提醒。

从技术层面回到价值层面:AI 的目标不是消除不确定性,而是帮助人类更好地与不确定性共处。清晰划定 AI 与人的分工边界,远比盲目全量依赖或全盘舍弃 AI 更关键。人负责判断与风险承担,AI 负责信息检索与初步筛选——这才是当下最合理的分工边界。

短期无需等待下一代架构(如 JEPA 世界模型)成熟落地,产业已有成熟过渡手段:给通用大模型接入行业因果规则库、针对黑天鹅场景小样本微调;在 AI 输出模板里强制附带预测失效触发条件;固定红队专家校验流程,人工抬升伤病、突发政策、对手激进策略等小众变量权重,形成 " 算力统计 + 人工因果纠偏 " 的稳定模式。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 世界杯 联想 巴西 摩洛哥
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论