来源:新浪财经
截至 6 月 16 日,联想集团与咪咕视频联合发起的 " 世界杯预测人机大战 " 阶段赛果显示:百度文心以 15 场命中 7 场、46.7% 的命中率暂列第一,领跑 12 大主流 AI 模型;联想天禧 AI、中移九天、腾讯混元、MiniMax 均命中 6 场,命中率 40.0%,位居领先梯队。
尤其是 6 月 15 日科特迪瓦对阵厄瓜多尔一役爆出冷门,科特迪瓦最终以 1:0 取胜。赛前百度文心准确命中最终比分,成为本场唯一预测正确的大模型。文心负责人说:" 我们是所有参赛模型里最敢给出冷门判断的那一个 "。这意味着,在同一赛程、同一题面、同一赛果验证机制下,百度文心目前展现出更突出的预测表现。

新浪科技对话百度文心相关负责人,探究在 " 世界杯预测人机大战 " 中,百度文心为何能展现 " 命中多场 " 的预测能力?该负责人表示," 如果说背后有什么核心逻辑,在于文心大模型拥有‘深厚的数据基本功’与‘敏锐的实时感知’,核心逻辑是知识增强 + MoE 多专家架构。"
其还表示,对于名次抱有一颗平常心," 正如当前排名的情况,当前 2 到 5 名的竞争非常激烈,大家只有一场球的差距。我们最期待的,不是把同行甩开多远,而是希望通过这次高关注度的‘人机大战’,让更多人看到大模型不仅能写代码、做 PPT,它同样可以走进烟火气十足的体育竞技,成为陪伴球迷聊球、评球的硬核伙伴。"

以下为对话实录:
Q:12 款国产大模型同台比拼,文心目前 7 场命中稳居第一,联想天禧、混元等多款模型紧随其后,拉开领先优势的核心算法逻辑是什么?对于目前 AI 预测排名第一你们怎么看?
A:首先非常感谢大家的关注,也向同台切磋的联想天禧、腾讯混元等优秀同行致敬。足球是圆的,模型预测也像赛场局势一样瞬息万变。目前暂时的领先,我们更多看作是 " 文心大模型 " 在知识沉淀与实时理解上的一次良好微调表现。
如果说背后有什么核心逻辑,在于文心大模型拥有 " 深厚的数据基本功 " 与 " 敏锐的实时感知 ",核心逻辑:知识增强 + MoE 多专家架构。
知识增强:预训练阶段注入大规模知识图谱,不是纯靠统计规律猜结果,而是做实体级推理——球队阵容、教练战术、历史交锋这些结构化信息,文心能真正 " 理解 " 关系链,而不是只记胜率数字。
MoE 架构:多专家动态路由,预测强队赢和预测冷门走不同专家路径,架构层面就不会所有输出挤在 " 强队必胜 " 一条路上。
检索增强 +RLHF 对齐:实时检索校正静态记忆偏差,人类反馈强化让输出更贴近真实判断逻辑。我们暂时的领先并不是拉开了绝对的技术代差,而是得益于百度在中文信息检索和知识增强领域更早、更扎实的数据基建积累。
Q:6 月 16 日西班牙逼平佛得角一战,12 家 AI 全部预判西班牙大胜、无一人猜平局,为什么文心同样没捕捉到这场超大冷门?模型在预判弱队逼平豪门上存在哪些天然短板?
A:这场比赛恰恰证明了为什么我们如此热爱足球——足球的魅力,就在于它无法被纯粹的算力给完全框死。AI " 集体翻车 " 的背后,其实透露出数字世界在面对人类竞技时的一种 " 天然理性悖论 "。
从统计学和数据基础来看,AI 会面临两个客观的逻辑限制:
历史概率的 " 正向循环 ": 在西班牙与佛得角的历史身价、近期国际 A 级赛事胜率、以及进攻三区的数据对比中,西班牙都占据着压倒性优势。作为以 " 理性推演 " 为底座的大模型,文心必须尊重最大概率的客观事实,给出胜率最高的合理预测。
" 黑天鹅事件 " 的突发性:弱队逼平豪门,往往取决于球场上某一个瞬间的偶发因素——比如某一脚鬼使神差的折射、门将长达 90 分钟的 " 神级开挂 "、或是强队领先后的思想松懈。这些属于 " 高噪音、低频次 " 的突发变量。
但如果因此就认为文心 " 不敢预测冷门 ",那恰恰看反了。事实是,在本次世界杯预测中,文心是所有参赛模型里最敢给出冷门判断的那一个—— 6 月 15 日精准命中科特迪瓦 1:0 厄瓜多尔,6 月 17 日预测伊拉克胜、6 月 18 日预测乌兹别克斯坦胜、6 月 20 日预测苏格兰胜,这些场次文心给出的答案都与大多数 AI 模型相悖。没有任何模型能场场命中爆冷,这本就不现实;但文心在该出手时出手了,而且出手的整体准确率排在所有模型第一。
所以这不是模型的 " 短板 ",而是 AI 在以最严谨的态度向概率致敬。这场 " 打脸 " 让我们对绿茵场充满敬畏,也为文心提供了极其宝贵的冷门异值(Outlier)数据样本。
Q:网友戏称本届 AI 赛场 " 集体跟风、容易扎堆预测强队 ",文心如何平衡历史大数据与黑马、冷门的推演,避免和其他模型给出高度同质化答案?
A:网友的调侃很尖锐,但也点出了 AI 预测的本质:大家都在用最客观的数据算最理性的账,答案自然容易 " 英雄所见略同 "。但文心一直在努力做的,是在理性的底盘上,加入对 " 足球规律 " 的深度理解,拒绝盲目跟风。
为了在同质化中寻找差异化的突破口,文心主要在做两件事:
动态权重对抗:我们没有死抱着历史战绩不放。文心内部有一套 " 动态权重降维 " 机制,当两队身价悬殊但强队处于连续的一周双赛、或者主力前锋处于进球荒时,模型会自动调低历史胜率的权重,放大疲劳度、战意等 " 软性指标 " 的权重。
提示词工程与长文本思考:在给出最终判断前,文心会通过多智能体(Multi-Agent)进行内部模拟对抗。一个扮演 " 豪门拥趸 ",另一个专门寻找 " 爆冷因子 "(如定位球效率、防守反击成功率),通过高强度的内部推演来捕捉黑马的蛛丝马迹,让我们的预测报告比单纯的 " 压强队 " 更有深度、更有信息量。
Q:人机大战里普通球迷整体胜率接近 47%,不少球迷靠直觉抓平局,AI 榜首文心的命中率还没甩开普通球迷,是否说明足球预测 AI 远未成熟?
A:必须承认,在足球预测这个领域,老球迷的 " 直觉 " 往往就是最顶级的算法。球迷的直觉里包含了大量的玄学、情感和对主队破釜沉舟心态的共情,这是冰冷的数字很难瞬间复制的。
但如果我们拉长周期来看,AI 的价值正在逐步显现:
基数与方差的较量: 在已经统计的 15 场比赛中,文心以 46.7% 的正确率暂列大模型第一。虽然目前尚未甩开人类顶尖球迷的直觉,但人类的直觉往往波动极大,会受到情绪和主观喜好的干扰;而 AI 的优势在于长周期的稳定性与抗干扰能力。
多目标预测的探索: 足球预测是一个公认的强噪声、低信噪比场景。AI 预测不仅在猜胜负,我们还在通过文心尝试对控球率、传球成功率等中场过程进行更深度的多任务学习(Multi-task Learning)。
与其说是 "AI 远未成熟 ",不如说这是人工智能在向人类智慧与直觉发起的一次长跑式致敬。随着赛程过半、数据样本的补充,我们有信心让模型的曲线更加稳健。
还需要说明的是,预测的准确率一直在发生变化。在已经统计的 15 场比赛中,文心的预测准确率是 46.7%。而如果看截至 6 月 15 日的 12 场比赛,文心的预测准确率则是 58.3%,远高于人类预测的平均准确率。并且截至目前,人机大战里显示人类的平均准确率为 46.8%。
Q:对于之后 AI 预测大战你们有什么期待?觉得自己最终会获胜吗?能拿到第几名?
A:对于名次,我们抱有一颗平常心。正如当前排名的情况,当前 2 到 5 名的竞争非常激烈,大家只有一场球的差距。我们最期待的,不是把同行甩开多远,而是希望通过这次高关注度的 " 人机大战 ",让更多人看到大模型不仅能写代码、做 PPT,它同样可以走进烟火气十足的体育竞技,成为陪伴球迷聊球、评球的硬核伙伴。
至于最终能否拿到第一,我们当然希望能和文心大模型的数据表现一样,稳扎稳打,拼到最后。但比胜负更重要的是,在这场世界杯之后,文心大模型在处理复杂、突发、多变量决策上的能力,又将进化到一个全新的高度。谢谢大家,让我们一起期待接下来的比赛!享受世界杯给球迷带来的快乐!


登录后才可以发布评论哦
打开小程序可以发布评论哦