来源:新浪财经
文 / 罗茜
过去两年,中国大模型习惯在发布会上证明自己。但一个基本问题始终没有解决——普通用户能不能相信 AI?
答案在 2026 年夏天的世界杯期间初见端倪,并且用了一场近乎全民参与的表达方式。
6 月 30 日晚,《人机大战:谁是世界杯预言家》节目连线了一位 29 岁的重庆彭水贴砖工人李先生。他从 2014 年巴西世界杯开始看球,是 C 罗的铁杆粉丝。这一次,他在 32 强晋级名单的竞猜中 32 中 31,力压场上所有 AI 模型和专业解说,成为 " 全场唯一 "。按照世界杯扩军至 48 队后的赛制,小组赛阶段要从 12 个小组预测出 32 支晋级球队,若完全随机填写,最终 32 中 31 的概率约为 1.81 亿分之一,相当于连续猜对 27 到 28 次硬币正反面。联想集团为他送上了一整套设备作为奖励。
这档节目由联想集团与咪咕视频联合推出。联想集团依托旗下天禧 AI 智能体,召集 DeepSeek、Kimi、腾讯混元、千问、百度文心、智谱、MiniMax、阶跃星辰、讯飞星火、中移九天以及商汤小浣熊等国内 AI 大模型,以与一支球队同构的组织方式,对全部 104 场世界杯比赛进行公开预测,并邀请足球评论员、明星嘉宾和数千万普通球迷同步参与竞猜。

截至 7 月 1 日,这场 " 人机大战 " 累计参与人数达 2941.24 万,将这场中国 AI 大模型预测,变成了一场可以被观看、讨论和复盘的公共事件。彭博报道称,过去,中国 AI 公司通过免费奶茶、数十亿元规模的数字红包以及春晚广告投放来争夺用户注意力;如今它们在世界杯预测中展开新战场,多家大模型公司已经将贯穿整个世界杯赛程的《人机大战:谁是世界杯预言家》视为严肃的技术测试场,并推出相关激励机制。

世界杯 " 人机大战 " 向用户提供了一个低成本的信任测试场。它第一次把 AI 放进一个真实、公开、连续反馈的场景:赛前给出判断,赛后立即结算,每一场比赛都会更新排行榜,每一次判断都会接受真实结果验证。对用户而言,这场 " 人机大战 " 不是一次简单的竞猜游戏,它的看点并不是简单地 AI 与人类比输赢,而是 AI 在真实、不受控、连续反馈的场景中,会怎样被使用、比较和质疑。
这是一场颇有野心的验证场景,由近年来在 AI 赛道上相当进取的联想集团所搭台。相较于工业质检、医疗辅助等场景,AI 猜球并不复杂,但在这个极强的互动性的演练场里,AI 能力的强弱,通过和比赛结果的对比,用户可以有最为直观的判断。正如联想集团天禧 AI 生态事业部总经理陈学桂所指出的,参与 " 世界杯预测人机大战 " 的 AI 均采用实时数据,智能体将大模型的推理和泛化能力与具体应用场景结合,是把 AI 的后台能力转化成球迷可以直接感知的互动体验。
一、AI 预言家的成绩单
世界杯从来不缺预言家。
2010 年南非世界杯," 章鱼保罗 " 靠预测比赛结果成为全球话题,此后每届大赛,总会出现动物预测、民间神算、球迷竞猜和专家预测。猜胜负、猜比分、猜冠军,早已是世界杯的一部分。
今年,毫不意外地,AI 加入了这场游戏。7 月 1 日晚," 比起传统经验式赛事分析,我更看好 AI 公式背后的海量赛事数据支撑,融合自身赛场解读视角 ",喜剧演员徐志胜在微博宣布,加入 " 人机大战 "。
7 月 1 日的三场淘汰赛,英格兰 2:1 击败刚果(金),美国 2:0 战胜波黑,12 大 AI 均命中方向;比利时则在 90 分钟内战成 2:2,再次把 AI 拖入最不擅长的平局题,12 大 AI 集体失手。两场命中,一场平局翻车,榜单差距继续被拉扯。

更有意思的是这份成绩单本身的演变过程。6 月 24 日,覆盖 46 场赛事时,12 支 AI 战队的整体准确率为 57%,反超人类玩家 52.5% 的水平,中移九天以 63% 的预测胜率暂居榜首,联想天禧 AI、千问、腾讯混元等多款模型以 60.9% 并列第二梯队。到 6 月 28 日、72 场小组赛全部结束时,12 家 AI 整体命中率升至 61.9%,人类玩家为 54.6%,AI 领先约 7.3 个百分点,腾讯混元和中移九天并列第一,命中率 68.1%,垫底的阶跃星辰只有 43.1%,甚至低于人类选手的平均水平。
而当 32 强名单最终揭晓,按最终晋级名单核验,腾讯混元命中 29 支球队暂列第一;MiniMax 和讯飞星火命中 28 支并列第二;DeepSeek、智谱和联想天禧 AI 命中 27 支;百度文心、中移九天、Kimi、千问、商汤小浣熊命中 26 支;阶跃命中 24 支。
真正拉开差距的,从来不是强弱悬殊的 " 送分题 "。决定排名的,是波黑、佛得角、刚果(金)、加纳等非传统强队的晋级,以及伊朗、韩国、乌拉圭等球队的意外出局;其中佛得角几乎是本届世界杯 AI 预测中最大的死角,这支赛前不被看好的球队多次让多家 AI 集体翻车,也暴露出当样本不足、球队状态出现超预期波动时,AI 判断仍会明显失真的问题。
这暴露出另一层现实:AI 擅长猜确定性高的比赛——强弱分明的对局中,模型只要参考世界排名、阵容身价和历史战绩就能做出正确判断;但一旦遇到平局,AI 的命中率会明显下滑。多个模型很可能基于相似的数据源一起押注强队,也就容易一起错过冷门——这恰恰是 " 人机大战 " 比单纯的技术评测更有价值的地方:它让用户不仅看到 AI 猜对了什么,也看到 AI 如何集体误判。
球迷们不会去看模型测评,也不关心哪家模型在榜单上得分更高,但他们会关心自己支持的球队能不能赢,也会拿 AI 的预测和自己的判断比一比。AI 在这里不再是一个遥远的技术概念,而是可以被球迷调侃、质疑、比较的预测者。这种强互动性,让用户对 AI 的推理、判断、决策链路有更为清晰的认知,这件事远比 AI 预测准确率更为重要。毕竟,过去,对普通用户而言,AI 背后的运行逻辑是不可感知的,这比听一次技术演讲更为直观。
二、" 集体翻车 " 后的 AI 逻辑
复盘上一阶段的 " 人机大战 ",在刚果(金)对阵乌兹别克斯坦、哥伦比亚对阵葡萄牙的比赛中,12 个 AI 合计 24 次预测仅命中 5 次,出现阶段性 " 集体低命中 " 的情况。比如在哥伦比亚与葡萄牙一役中,10 个模型一致押注葡萄牙取胜,仅少数模型给出平局或弱队爆冷判断,但最终比赛以 0:0 收场,集体预测方向失效。在部分比赛轮次中,12 家 AI 合计 24 次预测仅命中 5 次,出现阶段性 " 集体低命中 " 的情况。
这种同步误判并非偶然,而是由模型训练与信息结构本身决定的。
在当前主流大模型的训练与推理框架中,体育类预测任务通常依赖高度重合的数据输入,包括历史战绩数据库、球队世界排名、球员身价、伤病信息以及博彩赔率变化。这些变量在不同模型之间具有高度可共享性,导致输入层本身已经趋于标准化。
在此基础上,多数模型的推理方式也呈现出类似路径:通过对结构化数据进行加权整合,输出 " 最可能结果 "。在这一机制下,赔率与历史胜率往往被赋予较高权重,从而强化了对强队的稳定预期。
问题在于,当多个模型共享相同的信息来源与相似的权重体系时,它们并不是独立生成判断,而是在同一概率空间中进行收敛计算。结果是,在大多数常规比赛中,这种收敛表现为稳定命中;但在低概率事件占主导的比赛中,例如点球大战、红牌改变节奏或防守反击主导的对抗,这种收敛反而会放大系统性偏差。
从这一机制看,12 个模型在同一比赛中同时押错,并不意味着个体模型能力不足,而是意味着它们在结构上共享了过于相似的判断框架。
在金融市场、供应链预测以及企业决策系统中,如果多个 AI 模型被同时用于需求预测、风险评估或资源配置,并且底层依赖相似的数据源与推理逻辑,那么一旦外部环境发生结构性变化,这些模型可能同时低估或高估风险,从而形成同步性决策偏差。
这也使得世界杯 " 人机大战 " 的意义不仅仅是预言与娱乐,它要回答的问题,不仅仅是 "AI 是否更擅长预测足球 ",而是从一场预测竞赛,逐步转向对 AI 系统性行为及其外溢风险的一次结构性观察。
大模型之一 Kimi 也在近期表示,参与预测的目的并不是证明自己的准确性,而是因为世界杯提供了一个天然的公开、可验证、持续变化的场景。Kimi 希望通过这次尝试,把分析过程、预测结果和赛后复盘放在同一个透明框架中,让更多人了解当前 AI 技术的能力和局限性。
三、 " 首届 AI 世界杯 "
联想集团把 AI 放进世界杯,并不是为了证明自己能够训练出更强的大模型。过去两年,大模型竞争更多集中在参数规模、推理能力、多模态与价格体系,但联想的业务基础并不在模型层,而在 PC、手机、平板、工作站、服务器及边缘设备等硬件与算力入口。
因此,联想推广 AI 的重点,并不在与 DeepSeek、Kimi、通义、文心等模型公司继续比拼底层模型能力,而是回答一个更实际的问题:这些模型能力最终通过什么方式触达普通用户。
世界杯则成为其中最具互动性的一个环节。在这一场景中,AI 不再只是 " 被展示 ",而是被直接使用:用户通过竞猜、对比与复盘,与 AI 预测结果形成实时反馈关系。
在联想构建的这一体系中,人机大战并非单一产品,而是一个入口实验:将天禧 AI 以及 DeepSeek、Kimi、文心、通义千问等多个模型接入同一用户场景,使 AI 能力在真实行为中被调用、比较与验证。从业务结构看,这一设计也与联想的终端战略形成一致性。AI PC、AI 手机、AI 平板以及个人智能体,本质上都需要解决同一个问题:用户为何持续使用 AI 能力。
正如联想集团智能设备业务集团(IDG)总裁 Luca Rossi 近期所指出的,AI 行业正进入由智能体(Agentic AI)驱动的新一轮平台变革,用户交互正从 " 应用驱动 " 转向 " 意图驱动 ",个人 AI 将成为联想混合式 AI 战略的核心支柱之一。" 联想集团以 PC 领域的领导地位而广为人知。但现在,我们正在成为一个更大的角色:一家由 AI 驱动的生态系统领导者。"Luca 指出,联想不再依赖单一硬件竞争,而是通过 AI 把 PC、手机、平板、可穿戴设备等多终端连接为统一协同的智能体验体系。
世界杯提供了一个低门槛答案。在看球这一天然高参与度场景中,预测行为成为 AI 能力的最直接入口,使复杂的技术能力被转化为可感知的日常互动。在此过程中,联想与大模型公司的分工也逐渐清晰。模型公司负责能力本身,而联想更关注能力如何被接入设备、系统与场景之中。
联想不做大模型,而是 AI 生态的连接者。从这个意义上看,联想更像是在构建一套 AI 入口基础设施,而人机大战则是这一基础设施在高频消费场景中的一次集中验证。


登录后才可以发布评论哦
打开小程序可以发布评论哦