新浪财经 6小时前
12大模型同台、超1800万人参与,联想在世界杯为中国AI搭建“裁判台”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

来源:市场资讯

当四年一度的绿茵狂欢遇上席卷全球的 AI 浪潮,一场关于算法与经验、理性与直觉的终极博弈正在真实上演。

6 月 24 日,由联想集团与咪咕联手打造的国内首档 AI 大模型深度参与的世界杯直播真人秀《人机大战:谁是世界杯预言家》将正式在咪咕视频开播。苏醒、詹俊、韩乔生、阎鹤祥、孙继海、张踩铃等嘉宾将与 12 大 AI 模型同台比拼,预测世界杯的胜负与比分。 

而在节目开播之前,一场真刀真枪 " 打 " 了 13 天、覆盖全部世界杯赛程、吸引超千万人参与的 " 世界杯预测人机大战 ",已经率先打响。

自世界杯揭幕以来,由联想旗下天禧 AI 超级智能体担任召集者,汇聚 DeepSeek、Kimi、百度文心、千问、中移九天等 11 大 AI 模型,组局 12 大 "AI 战队 ",围绕本届世界杯全部 104 场比赛逐场亮出预测,并与人类球迷展开实时较量。

这不仅是全球首个 AI 团体与全民同场预测的世界杯人机对决,也成为中国大模型第一次在全球顶级赛事中接受真实世界检验。对于所有参赛模型而言,这是一场不能提前 " 对答案 " 的公开考试。

一场逆袭:AI 如何在 13 天里反超人类

开赛之初,AI 并没有赢得掌声。

第一轮小组赛,冷门频出。最典型的案例发生在西班牙与佛得角之间。赛前,12 大 AI 没有一家选择平局,11 家预测西班牙大胜,1 家反向押注佛得角,但所有模型都默认了一件事——这场比赛一定会有进球,且分出胜负。

然而当终场哨声响起,比分却是 0:0。

同一天,伊朗对阵新西兰一役再次让 AI 阵营集体失准。这场赛前看似悬念不大的比赛,让 12 家模型赛前给出了难得一见的满票共识——全部预测伊朗取胜。但最终双方以 2:2 握手言和,12 大 AI 无一命中。

那一天的 4 场比赛中,12 大 AI 共做出 48 次胜平负判断,只命中了 1 次。截至当时,AI 预测准确率仅为 35%,大幅落后于人类阵营。

然而,拐点很快出现。随着第二轮小组赛进入 " 强队收割 " 模式,美国 2:0 澳大利亚、荷兰 5:1 瑞典等预期内的结果接连兑现,AI 阵营的预测准确率开始显著拉升。中移九天、百度文心、DeepSeek、千问、联想天禧 AI 等模型出现连续多场命中的表现,整体命中率快速攀升。截至 6 月 24 日,12 大 "AI 战队 " 的整体准确率已攀升至 57%,反超人类玩家 52.5% 的整体准确率水平。

4.5 个百分点的差距看似不大,但从近日的胜率走势来看,两条曲线的方向已经清晰分开—— AI 的线在持续爬升,人类的线基本走平。

模型排名方面,综合 46 场赛事的预测数据,中移九天以 63% 的预测胜率暂居榜单第一;联想天禧 AI、千问、腾讯混元等多款模型以 60.9% 的胜率并列第二梯队。

更重要的是,这份排名,没有任何一家 AI 公司有机会提前知晓,也没有任何人有能力提前设计。世界杯的赛果由场上 22 名球员决定,而不是由模型决定。正因如此,这些数据才拥有特殊价值。

一把标尺:为什么这批数据的意义不一样

理解这场实验的价值,需要先理解中国 AI 行业过去几年是如何验证自身能力的。

长期以来,大模型的能力评价主要依靠三种方式:基准测试、产品数据和事件营销,但三者都存在天然局限性。基准测试发生在实验室环境里,与真实世界的复杂性相距甚远;产品数据掌握在各家公司自己手中,难以横向比较;事件营销能够制造声量,但声量不等于能力。这三种路径共同的问题是:结论的产生方式可以被设计,而被设计的结论,其公信力天然存在折扣。

世界杯则提供了一种截然不同的验证框架。

每一场比赛开打前,12 大 AI 模型必须在同一套规则下亮出自己的判断,赛果由 22 个球员在场上决定,不受任何 AI 公司的控制。判断一旦公开,不能事后修改;赛果一旦落地,即时验证。这个机制持续覆盖 104 场比赛,产生的是一个在真实世界中被逐场检验的能力样本,而不是实验室里的推算数字。

13 天积累下来的数据,已经呈现出清晰的规律:AI 擅长秩序题,不擅长陷阱题。当强弱关系清晰、比赛按照实力展开时,AI 的命中概率极高;当足球进入平局、冷门、临场波动和情绪变量主导的时刻,AI 会迅速失去把握。这个结论不是任何一家参赛模型说的,是 104 场比赛的赛果一场一场呈现出来的。

对于中国 AI 行业而言,这批数据的含金量在于它的 " 不可篡改性 " ——它是在全民围观、实时验证、结果无法回溯修改的条件下产生的。这在国内 AI 能力验证的历史上,几乎是第一次。

而让数据更有意义的,是超千万人的参与基数。人类预测阵营的 52.5%,构成了一个真实的、有规模支撑的比较基准线。AI 赢的,不是一个虚设的假想对手,而是超过千万量级的真实判断样本。

一张入场券:为什么联想能搭这个台

这个验证框架之所以存在,有一个前提条件:必须有人能拿到世界杯这张入场券。

联想集团是 2026 年 FIFA 世界杯官方技术合作伙伴,正以端到端全域 AI 技术深度参与本届世界杯核心技术体系建设。这个身份不是营销标签,而是真实的深度技术嵌入。

在这届世界杯上,联想部署了 FIFA AI Pro 世界杯足球 AI 超级智能体,为全部 48 支参赛球队提供战术分析支持;联想 3D 数字人可视化方案将越位判定精度提升至 " 头皮级 ",为全部 1263 名球员建立数字分身,从而帮助世界杯半自动越位判罚的可视化呈现;联想历时不到一年时间自研打造的裁判视角 AI 视频增强系统,更是首次将裁判第一视角稳定接入全球直播,将画面清晰地呈现在全球观众眼前。

此外,联想还参与运营了达拉斯国际广播中心、迈阿密赛事运营中心和迈阿密技术指挥中心等核心节点的运行,实时保障着三国 16 城的赛事运转。

这种深度参与世界杯赛事运营的能力,不是任何 AI 厂商可以单独复制的入场路径,也让联想拥有了搭建世界杯预测实验场的独特条件。

在此基础上,联想天禧 AI 以 " 召集者 " 的角色发起人机大战,召集国内 11 家主流 AI 同台亮出预测,以赛果为唯一的评判标准。这个设计本身就确保了实验的公信力:没有任何一家参与者能够掌控结果。

最终," 世界杯预测人机大战 " 打造出全球首个 AI 团体与全民同场预测的世界杯人机对决,吸引了超 1800 万用户实际参与——这个规模,让它从一个品牌活动,变成了一个具备统计意义的公开实验。

裁判台上的位置,不只是联想一家的收益

把上述三件事放在一起看,就能理解联想在 2026 年世界杯的这步棋的真正价值所在。

它不只是一次有声量的品牌营销。联想通过人机大战搭建的,是中国 AI 行业第一个在真实世界中持续运行、全民可见、无法事后修改的能力验证公共平台。在这个平台上,各家大模型的真实表现被逐场记录,AI 能力的边界被一点点摊开给所有人看。这个 " 裁判台 ",给了中国 AI 行业一个此前从未有过的公共能力坐标。

对联想而言,它占据的是这个坐标系的搭建者和运营者位置——不是一个大模型,而是一个能把大模型拉到同一张答卷上、让真实世界来评判的平台型角色。

这个角色,在 AI 产业从 " 百模大战 " 向真实场景落地的过渡阶段,具有不可忽视的战略价值。当大模型们都在寻求更多的真实场景验证时,能提供这种验证机会的平台,本身就是一种稀缺的基础设施。

6 月 24 日 21:00,《人机大战:谁是世界杯预言家》节目的上线,是这场实验从 " 数据可读 " 升级为 " 过程可看 " 的节点。节目的 20 场直播、嘉宾与 AI 同台的公开预测、每场赛后的实时复盘,会将这个裁判台的影响力从千万参与者扩展到更大量级的观众,成为实验进入更大舞台的开始。

截至目前,人机大战仍在进行中,后续赛程的数据还在持续产生。这场实验的完整结论,要等 104 场比赛全部打完才能落定。但有一件事已经清晰:在 2026 年这个 "AI 世界杯元年 ",联想选择了一种比喊口号更扎实的方式来证明 AI 的价值——让真实的赛果,替中国 AI 说话。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 世界杯 联想 咪咕 伊朗
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论