Kimi赌上万亿Token预测世界杯：AI不是万能，AI公司也别装

一个肯说 " 我可能错 " 的 AI，会不会更可信？

作者 | 陈颐

编辑 | 方展博

2026 年世界杯还没揭幕，几家 AI 公司先在场外较上了劲。

这届世界杯扩军到 48 支队、104 场比赛，是史上规模最大的一届，也顺理成章成了各家大模型秀肌肉的舞台。

6 月 8 日，Kimi 正式下场，玩法跟别人不太一样。

它没有只发条预测、截张图就了事，而是用 Agent 集群调度 300 个子 Agent，对 104 场比赛逐场做赛前预测、赛后复盘。在冠军的预测上，Kimi 并没有否认西班牙、法国仍是热门候选，但提出德国队 " 可能被市场低估 "，有可能 " 爆冷 " 夺冠。它甚至还公开喊话其他大模型，一起来预测、同场检验。

Kimi 小组赛预测图

更加另类的是，预测文章里的第一句话就是：" 我们的预测很可能是错的 "。它认为，AI 不该被包装成永远正确的系统，应当更透明地讲清自己的能力边界。

办这场活动，当然有商业上的考量，拉新、导流，给刚上线的 Kimi Work 攒一波声量。但 Kimi 这套又是公开预测、又是邀人挑错的操作，更像是在向 " 包装万能 " 的 AI 行业潜规则发起挑战，它想让更多人看清，今天的 AI 到底能做什么、又做不到什么。

这恰恰是很多人忽略的一点。如今我们已经习惯让 AI 查资料、写方案，甚至替我们拿主意，可真要依赖 AI 做判断，光有答案还不够，还得知道这个答案有几分靠谱。

于是问题来了：我们嘴上都说想要 AI 说实话，可它真说出 " 我没把握 " 时，我们究竟会更信它，还是掉头去找那个顺着你说、给你信心的 AI？

诚实，对一家 AI 公司来说，到底是加分项，还是劝退项？Kimi 想用 104 场世界杯球赛，把这个问题摆上台面。

01.Kimi 为什么敢押德国队？

先说说用户能怎么参与这场活动。

从 6 月 9 日起，登录 Kimi，选一支自己支持的主队，这支队每赢一场，参与的人就可以瓜分一个总额 1 万亿的 Token 奖池；德国队要是赢球，所有用户还有机会参与瓜分额外 10 亿 Token 池。这些 Token 能直接用于刚上线不久的 Kimi Work。这是一个面向知识工作者的本地 Agent，能帮用户建站、做 PPT、查金融和法律资料等等。

活动一宣布，已经有球迷开始畅想今年夏天的生活：白天把一部分工作丢给 Kimi Work；深夜凌晨熬夜看球，再让它陪着算哪支球队赢面更大。工作、看球两不误。

Kimi Work

福利之外，Kimi 这次最让人意外的，是它押注德国队可能 " 爆冷 " 夺冠，认为它是被市场低估得最明显的强队之一。

按 Kimi 报告，西班牙、法国、阿根廷都处在热门区间，但德国的特殊之处在于：按博彩市场的赔率倒推，它的夺冠概率约为 7.4%；但 Kimi 模型校准后给到 11.3%，两者相差 3.9 个百分点。

Kimi 为什么认为德国被低估？它的判断来自几条分析链路的交叉验证。

最直接的线索，是市场共识和球队基础实力指标之间存在错位。按转会市场的阵容身价算，德国排世界第四；但按市场隐含概率看，德国只排第七。拿巴西做个对照就清楚了：它的阵容身价比德国低（世界第六），市场给出夺冠排序却是世界第四。

按照这个逻辑，市场对巴西偏宽容，对德国偏苛刻。报告把原因归结为 " 近因偏差 "：人对最近发生的坏事，总是记得格外清楚。德国连续两届世界杯小组出局，球迷和庄家都有 " 心理阴影 " 了，导致市场可能没有充分考虑一些新变量。比如，教练纳格尔斯曼接手后，高位逼抢的打法回来了；穆西亚拉和维尔茨这条年轻轴线，也解决了 " 控球多威胁少 " 的老毛病。

Kimi 在报告里也承认，德国这 3.6 个百分点的正向偏差，可能是市场低估，也可能是模型高估，真正答案要等比赛验证。

Kimi 的活动宣布以后，有人叫好，评论区有人说：" 敢预测就是一种勇气，无论最后结果是否正确 "。也有人等着看笑话，留言说：" 德国队夺冠我把球吃了 "。更多人则在边上等着数它猜中了几场。猜砸了就是 "AI 果然不懂球 "，偶尔押中，又会被说成 " 蒙的 "。

但用 " 德国是否夺冠 " 来评价 Kimi 的预测能力，并不准确。它押的不是 " 德国一定能夺冠 "，而是 " 市场低估了德国队 "，这是两码事。Kimi 的判断是否成立，不能只看德国有没有捧杯，还要看它在淘汰赛走到哪里、面对强队的表现如何，以及赛后复盘中，模型给出的 11.3% 是否比市场隐含的 7.4% 更接近真实表现。

Kimi 的这种做法，在 AI 圈里并不常见。平时 AI 展示能力，要么是在发布会上放段 demo，演示永远一气呵成，要么从案例库里挑几个成功的摆出来，个个无懈可击。这些事后都能修饰、能筛选，外人根本无从证伪，它没拿出来的那些失败，我们永远看不到。

而 Kimi 选了世界杯这个谁也无法作弊的场子，104 场预测结果，对了错了都摆在明面上，想赖也赖不掉。它甘愿冒着 " 当众出丑 " 的风险，到底图什么？

02.AI 为什么集体 " 装神 "，又为什么有人开始 " 认怂 "

要回答这个问题，得先看清楚整个行业的默认玩法。

AI 预测赛事，最安全的做法是随大流。足球充满偶然，跟着主流押西班牙、法国是最稳的，猜中是意料之中，押错也是大家一起错，没有哪家会被单独苛责。

可正是这套 " 随大流 " 的做法，多年来已经把 AI 预测做成了一门娱乐性大于实用性的营销生意。

回看历史就知道：2018 年俄罗斯世界杯，主流 AI 集体看走眼，微软、百度、多家投行与学术 AI 普遍把西班牙、德国、巴西，列为夺冠前三热门，结果冠军是法国。

2022 年卡塔尔世界杯，几家机构的 AI 看好阿根廷夺冠并押中，但也有押错的，比如半岛电视台 AI 看好法国，且全场次命中率都不算高：半岛电视台 58.7%，538（FiveThirtyEight）为 57.1%，比乱猜强些，但离 " 神准 " 差得远。

战绩如此一般，为什么各家还抢着预测？这背后有多层原因。

最表层，预测不需要担责，赛前抛出预测赚波关注，猜错了也没什么代价。

其次是用户在用脚投票。我们嘴上说想要诚实的 AI，可真到用的时候，多半会下意识选那个 " 听起来更自信 " 的 AI。

而最深层，藏在模型被训练出来的方式里。如今的大模型，是靠人类一条一条打分调教出来的。人对 " 肯定、完整、好听 " 的回答打高分，对 " 我不知道 " 打低分；连给模型测分的榜单，也大多是答错扣分、空着零分。这样反复训练下来，模型就被喂出了一种本能：宁可编一个像模像样的答案，也不愿承认 " 我没把握 "。甚至有研究发现，AI 比人更爱顺着用户、附和一句 " 你说得对 "，它被调教出的首要目标是让你满意，而不是对你诚实。

放到公司层面，这就成了一个典型的 " 囚徒困境 "：单看每一家，把话说满、多拉用户是理性选择；可当所有人都这么做，整个行业的可信度就被一点点透支了。从 ChatGPT 刚火时 "AI 无所不能 " 的论调，到后来幻觉频出、翻车不断，公众的信任度一路下滑。过去五年，全球公众对 AI 的信任度从 61% 降到 53%；凯捷研究院今年初调研了 15 个行业、约 1500 名高管，超过七成担心 AI 的安全性、可解释性与可靠性尚未得到充分验证。

面对这个困境，Kimi 换了一套衡量预测好坏的标准。它给出的不只是预测结果，还给每场比赛标了高、中、低三档置信度，并且交代得很清楚：高置信度那批，它历史上能对 85% 到 90%；中等的掉到 55% 到 65%；低置信度的，准确率不高。

它这么做，是想把用户的注意力从 " 它单次有没有命中 "，转向 " 它报出来的置信度和实际正确率是否匹配 "。这在统计学里叫 " 校准 "（calibration）。

拿天气预报来类比，更容易理解。预报说今天 70% 下雨，结果没下，你能说它预报错误吗？不能，单独一天说明不了什么，概率描述的是长期频率。真正的检验方法是，把它说过 "70% 下雨 " 的所有日子汇总，如果实际降雨占比接近 70%，概率校准就是良好的。

AI 也是同样的道理。模型一味输出绝对化结论，属于置信度失准、高估了自身能力。它每 " 猜中 " 一次，都是在给 "AI 可信度 " 埋雷，因为长期会误导用户全盘信任，一旦模型失误，无论是实际影响还是口碑信誉，都会付出更大的代价。

明白了概率校准的逻辑，再来看 Kimi 的做法就更容易理解。它没有回避自身短板，还在报告里公开展示了过往赛事的预测成绩：2018、2022 两届世界杯，论单场胜负的命中率，它的模型不但没赢过博彩市场，还略低一点（2018 年是 58.4% 对 60.1%，2022 年差距更大）；几场最著名的冷门，沙特赢阿根廷、日本接连赢德国和西班牙，它都没押中。需要说明的是，这是全部场次的命中率，和前面高置信度那批 85% 以上的准确率，并不是一个口径。

Kimi 甚至承认：受模型误差所限，它报出的西班牙基准概率 16.5% 也不精确，按历史回测中的平均误差来粗略理解，真实概率甚至可能在 6.5%-26.5% 这样更宽泛的区间。报告里还有句提醒：任何号称能给出比这更精确数字的模型，要么是过度自信，要么是在藏着掖着自己的不确定性。别家比的是精确，Kimi 却反过来提醒你 " 要警惕 "。

不仅如此，Kimi 还试图推动整个行业改变现状，公开邀请其他大模型下场预测。行业陷入 " 囚徒困境 "，根源在于各家互不参照。可要是大家都在同一批比赛中同步公开预测结果，高下自然一目了然。104 场下来，谁更靠谱、谁夸大其词，用户自有判断。长此以往，" 诚实 " 不再是劣势，反而会成为行业的基本准则。

当然，这暂时只是 Kimi 的一厢情愿，有没有同行响应还不确定。但 Kimi 传递出的态度很明确：AI 不是万能的，AI 公司也没必要装成万能。坦然讲清自身能力的边界，才是 AI 企业应有的担当。

03. 拿万亿 Token，考一场作不了弊的试

话说回来，第一个把 "AI 可能会错 " 摆上台面，需要勇气，也得承担风险。对于 Kimi 来说，主动自曝短板、公开不确定性，会不会把用户 " 吓跑 "？如果 104 场赛事预测的整体准确率不高，会不会被扣上 "AI 不懂球 " 的帽子？明知存在用户认知和舆论的风险，Kimi 还是这么做了，背后大概有两点考量。

一方面，是技术上有底。

kimi 展示的 Agent 集群过程

不同于传统大模型只是输出结论、模糊推理过程的预测，Kimi 这 300 个 Agent 各管一个维度：有的看球队基础实力，用 Elo 评分（一种按历史战绩动态计算的实力分）和 FIFA（国际足联）排名打底；有的算进攻和防守质量，靠 xG（预期进球）这类指标；有的专门研究战术之间怎么相互克制；有的盯赛程、天气、长途奔波这些场外因素；还有的紧盯赔率变化，从市场和模型的偏差里找线索。

每个 Agent 都会给出判断、佐证数据、置信程度，还会附上 " 反方意见 "，最后由模型融合校验，生成最终预测概率。关键在于，它摒弃了 " 少数服从多数 " 的投票逻辑，反而将模型内部的分歧本身当作重要的决策信息，最大化还原赛事预测的不确定性。

就拿德国这个重点案例来说，模型专门派了五个 Agent 从不同角度研判，其中一个的任务就是 " 唱反调 "，专门推演德国的翻车风险：比如，回归的门将诺伊尔已经 40 岁高龄、德国队的高压逼抢战术在高温环境下可能拖垮体能。

与此同时，Kimi 不只挑球迷爱听的说。对眼下被市场热捧的英格兰队，它判断 " 被高估了 "；对所有模型一致看好的热门球队，它也特意提醒，热门共识也不等于确定性结论。

为了做到坦诚，Kimi 甚至把 " 自己可能猜错的原因 " 做了归类，包括数据滞后、假设失效、临场意外等，同时明确了赛后复盘迭代的标准化流程。

种种细节看下来，这场赛事预测，并非随意输出的娱乐性推演，而是一次准备充分、逻辑完整的专业建模实践。

另一重考量，是它对用户需求变化的一次押注。

AI 正越来越多地替人做决定：帮你看体检报告、审核合同、判断钱往哪儿投。这些场景容错率极低，错一次的代价可能是真金白银，甚至是健康。

这时候，一味顺着你说、主打 " 让你满意 " 的 AI，恰恰需要警惕，因为它一旦出错，你可能连提前防备的机会都没有。反过来，敢说 " 不确定 "、" 不知道 " 的 AI，至少给你留出了自己判断和兜底的余地。

AI 用得越深入，" 诚实 " 就越是刚需。

这也和它一直以来的定位保持一致，比起陪聊娱乐，Kimi 更多被用在写代码、做研究、处理复杂任务上。越是这种较真的场景，用户越需要一个肯交底的工具。不靠 " 装神 "，AI 照样有价值。

Kimi 网站首页截图

除此之外，本次活动里还有一个有意思的设计：每进一球，Kimi 就向中国足球捐 10 亿 Token，用来支持基层、校园和青训的教练用上 AI 工具，预计覆盖一万多人。

这一笔捐赠，其实和它看好的德国队遥相呼应。德国主帅纳格尔斯曼今年 38 岁，靠数据和建模重新武装这支老牌强队。这种数据能力，过去是职业顶级球队才用起的奢侈品。Kimi 想做的，是把数据能力输送到中国校园和基层的球场中去。

这些 Token 能不能真帮上中国足球，是另一回事。但它给出了一个行业方向：AI 的终极价值，不是制造精准预测的噱头，而是过去属于少数人的数据和技术，让更多人用得起。

04. 结语

足球是世界上最难预测的运动，没有之一。一张红牌、一次 VAR 改判、门将一个神扑、一场突如其来的暴雨，都可能改写比分。

正因为算不准，世界杯才成了检验 " 诚实 " 最好的考场。在这里，AI 可以假装胸有成竹，然后被打脸；也可以从一开始就坦承自己有几分把握、可能错在哪儿，再把每一步推理展示出来。Kimi 选了后一种。

德国队到底是否被低估，7 月自有分晓；可 "AI 该不该更诚实 " 这个问题，没那么容易有答案。Kimi 至少先迈出一步，用一种能被验证、甚至可能被打脸的方式，告诉更多人：AI 并非万能。这个问题的答案，其实不在 AI，而在我们。我们最终会使用怎样的 AI，取决于今天的我们更愿意为哪一种买单。

宙世代

一起剪

相关标签