世界杯人机大战“火出圈”，独家对话百度文心：我们是所有参赛模型里最敢给出冷门判断的那一个

来源：新浪财经

截至 6 月 16 日，联想集团与咪咕视频联合发起的 " 世界杯预测人机大战 " 阶段赛果显示：百度文心以 15 场命中 7 场、46.7% 的命中率暂列第一，领跑 12 大主流 AI 模型；联想天禧 AI、中移九天、腾讯混元、MiniMax 均命中 6 场，命中率 40.0%，位居领先梯队。

尤其是 6 月 15 日科特迪瓦对阵厄瓜多尔一役爆出冷门，科特迪瓦最终以 1：0 取胜。赛前百度文心准确命中最终比分，成为本场唯一预测正确的大模型。文心负责人说：" 我们是所有参赛模型里最敢给出冷门判断的那一个 "。这意味着，在同一赛程、同一题面、同一赛果验证机制下，百度文心目前展现出更突出的预测表现。

新浪科技对话百度文心相关负责人，探究在 " 世界杯预测人机大战 " 中，百度文心为何能展现 " 命中多场 " 的预测能力？该负责人表示，" 如果说背后有什么核心逻辑，在于文心大模型拥有‘深厚的数据基本功’与‘敏锐的实时感知’，核心逻辑是知识增强 + MoE 多专家架构。"

其还表示，对于名次抱有一颗平常心，" 正如当前排名的情况，当前 2 到 5 名的竞争非常激烈，大家只有一场球的差距。我们最期待的，不是把同行甩开多远，而是希望通过这次高关注度的‘人机大战’，让更多人看到大模型不仅能写代码、做 PPT，它同样可以走进烟火气十足的体育竞技，成为陪伴球迷聊球、评球的硬核伙伴。"

以下为对话实录：

Q：12 款国产大模型同台比拼，文心目前 7 场命中稳居第一，联想天禧、混元等多款模型紧随其后，拉开领先优势的核心算法逻辑是什么？对于目前 AI 预测排名第一你们怎么看？

A：首先非常感谢大家的关注，也向同台切磋的联想天禧、腾讯混元等优秀同行致敬。足球是圆的，模型预测也像赛场局势一样瞬息万变。目前暂时的领先，我们更多看作是 " 文心大模型 " 在知识沉淀与实时理解上的一次良好微调表现。

如果说背后有什么核心逻辑，在于文心大模型拥有 " 深厚的数据基本功 " 与 " 敏锐的实时感知 "，核心逻辑：知识增强 + MoE 多专家架构。

知识增强：预训练阶段注入大规模知识图谱，不是纯靠统计规律猜结果，而是做实体级推理——球队阵容、教练战术、历史交锋这些结构化信息，文心能真正 " 理解 " 关系链，而不是只记胜率数字。

MoE 架构：多专家动态路由，预测强队赢和预测冷门走不同专家路径，架构层面就不会所有输出挤在 " 强队必胜 " 一条路上。

检索增强 +RLHF 对齐：实时检索校正静态记忆偏差，人类反馈强化让输出更贴近真实判断逻辑。我们暂时的领先并不是拉开了绝对的技术代差，而是得益于百度在中文信息检索和知识增强领域更早、更扎实的数据基建积累。

Q：6 月 16 日西班牙逼平佛得角一战，12 家 AI 全部预判西班牙大胜、无一人猜平局，为什么文心同样没捕捉到这场超大冷门？模型在预判弱队逼平豪门上存在哪些天然短板？

A：这场比赛恰恰证明了为什么我们如此热爱足球——足球的魅力，就在于它无法被纯粹的算力给完全框死。AI " 集体翻车 " 的背后，其实透露出数字世界在面对人类竞技时的一种 " 天然理性悖论 "。

从统计学和数据基础来看，AI 会面临两个客观的逻辑限制：

历史概率的 " 正向循环 "：在西班牙与佛得角的历史身价、近期国际 A 级赛事胜率、以及进攻三区的数据对比中，西班牙都占据着压倒性优势。作为以 " 理性推演 " 为底座的大模型，文心必须尊重最大概率的客观事实，给出胜率最高的合理预测。

" 黑天鹅事件 " 的突发性：弱队逼平豪门，往往取决于球场上某一个瞬间的偶发因素——比如某一脚鬼使神差的折射、门将长达 90 分钟的 " 神级开挂 "、或是强队领先后的思想松懈。这些属于 " 高噪音、低频次 " 的突发变量。

但如果因此就认为文心 " 不敢预测冷门 "，那恰恰看反了。事实是，在本次世界杯预测中，文心是所有参赛模型里最敢给出冷门判断的那一个—— 6 月 15 日精准命中科特迪瓦 1：0 厄瓜多尔，6 月 17 日预测伊拉克胜、6 月 18 日预测乌兹别克斯坦胜、6 月 20 日预测苏格兰胜，这些场次文心给出的答案都与大多数 AI 模型相悖。没有任何模型能场场命中爆冷，这本就不现实；但文心在该出手时出手了，而且出手的整体准确率排在所有模型第一。

所以这不是模型的 " 短板 "，而是 AI 在以最严谨的态度向概率致敬。这场 " 打脸 " 让我们对绿茵场充满敬畏，也为文心提供了极其宝贵的冷门异值（Outlier）数据样本。

Q：网友戏称本届 AI 赛场 " 集体跟风、容易扎堆预测强队 "，文心如何平衡历史大数据与黑马、冷门的推演，避免和其他模型给出高度同质化答案？

A：网友的调侃很尖锐，但也点出了 AI 预测的本质：大家都在用最客观的数据算最理性的账，答案自然容易 " 英雄所见略同 "。但文心一直在努力做的，是在理性的底盘上，加入对 " 足球规律 " 的深度理解，拒绝盲目跟风。

为了在同质化中寻找差异化的突破口，文心主要在做两件事：

动态权重对抗：我们没有死抱着历史战绩不放。文心内部有一套 " 动态权重降维 " 机制，当两队身价悬殊但强队处于连续的一周双赛、或者主力前锋处于进球荒时，模型会自动调低历史胜率的权重，放大疲劳度、战意等 " 软性指标 " 的权重。

提示词工程与长文本思考：在给出最终判断前，文心会通过多智能体（Multi-Agent）进行内部模拟对抗。一个扮演 " 豪门拥趸 "，另一个专门寻找 " 爆冷因子 "（如定位球效率、防守反击成功率），通过高强度的内部推演来捕捉黑马的蛛丝马迹，让我们的预测报告比单纯的 " 压强队 " 更有深度、更有信息量。

Q：人机大战里普通球迷整体胜率接近 47%，不少球迷靠直觉抓平局，AI 榜首文心的命中率还没甩开普通球迷，是否说明足球预测 AI 远未成熟？

A：必须承认，在足球预测这个领域，老球迷的 " 直觉 " 往往就是最顶级的算法。球迷的直觉里包含了大量的玄学、情感和对主队破釜沉舟心态的共情，这是冰冷的数字很难瞬间复制的。

但如果我们拉长周期来看，AI 的价值正在逐步显现：

基数与方差的较量：在已经统计的 15 场比赛中，文心以 46.7% 的正确率暂列大模型第一。虽然目前尚未甩开人类顶尖球迷的直觉，但人类的直觉往往波动极大，会受到情绪和主观喜好的干扰；而 AI 的优势在于长周期的稳定性与抗干扰能力。

多目标预测的探索：足球预测是一个公认的强噪声、低信噪比场景。AI 预测不仅在猜胜负，我们还在通过文心尝试对控球率、传球成功率等中场过程进行更深度的多任务学习（Multi-task Learning）。

与其说是 "AI 远未成熟 "，不如说这是人工智能在向人类智慧与直觉发起的一次长跑式致敬。随着赛程过半、数据样本的补充，我们有信心让模型的曲线更加稳健。

还需要说明的是，预测的准确率一直在发生变化。在已经统计的 15 场比赛中，文心的预测准确率是 46.7%。而如果看截至 6 月 15 日的 12 场比赛，文心的预测准确率则是 58.3%，远高于人类预测的平均准确率。并且截至目前，人机大战里显示人类的平均准确率为 46.8%。

Q：对于之后 AI 预测大战你们有什么期待？觉得自己最终会获胜吗？能拿到第几名？

A：对于名次，我们抱有一颗平常心。正如当前排名的情况，当前 2 到 5 名的竞争非常激烈，大家只有一场球的差距。我们最期待的，不是把同行甩开多远，而是希望通过这次高关注度的 " 人机大战 "，让更多人看到大模型不仅能写代码、做 PPT，它同样可以走进烟火气十足的体育竞技，成为陪伴球迷聊球、评球的硬核伙伴。

至于最终能否拿到第一，我们当然希望能和文心大模型的数据表现一样，稳扎稳打，拼到最后。但比胜负更重要的是，在这场世界杯之后，文心大模型在处理复杂、突发、多变量决策上的能力，又将进化到一个全新的高度。谢谢大家，让我们一起期待接下来的比赛！享受世界杯给球迷带来的快乐！

宙世代

一起剪

相关标签