定焦One 1小时前
Kimi赌上万亿Token预测世界杯:AI不是万能,AI公司也别装
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一个肯说 " 我可能错 " 的 AI,会不会更可信?

作者 | 陈颐
编辑 | 方展博

2026 年世界杯还没揭幕,几家 AI 公司先在场外较上了劲。

这届世界杯扩军到 48 支队、104 场比赛,是史上规模最大的一届,也顺理成章成了各家大模型秀肌肉的舞台。

6 月 8 日,Kimi 正式下场,玩法跟别人不太一样。

它没有只发条预测、截张图就了事,而是用 Agent 集群调度 300 个子 Agent,对 104 场比赛逐场做赛前预测、赛后复盘。在冠军的预测上,Kimi 并没有否认西班牙、法国仍是热门候选,但提出德国队 " 可能被市场低估 ",有可能 " 爆冷 " 夺冠。它甚至还公开喊话其他大模型,一起来预测、同场检验。

Kimi 小组赛预测图

更加另类的是,预测文章里的第一句话就是:" 我们的预测很可能是错的 "。它认为,AI 不该被包装成永远正确的系统,应当更透明地讲清自己的能力边界。

办这场活动,当然有商业上的考量,拉新、导流,给刚上线的 Kimi Work 攒一波声量。但 Kimi 这套又是公开预测、又是邀人挑错的操作,更像是在向 " 包装万能 " 的 AI 行业潜规则发起挑战,它想让更多人看清,今天的 AI 到底能做什么、又做不到什么。

这恰恰是很多人忽略的一点。如今我们已经习惯让 AI 查资料、写方案,甚至替我们拿主意,可真要依赖 AI 做判断,光有答案还不够,还得知道这个答案有几分靠谱。

于是问题来了:我们嘴上都说想要 AI 说实话,可它真说出 " 我没把握 " 时,我们究竟会更信它,还是掉头去找那个顺着你说、给你信心的 AI?

诚实,对一家 AI 公司来说,到底是加分项,还是劝退项?Kimi 想用 104 场世界杯球赛,把这个问题摆上台面。

01.Kimi 为什么敢押德国队?

先说说用户能怎么参与这场活动。

从 6 月 9 日起,登录 Kimi,选一支自己支持的主队,这支队每赢一场,参与的人就可以瓜分一个总额 1 万亿的 Token 奖池;德国队要是赢球,所有用户还有机会参与瓜分额外 10 亿 Token 池。这些 Token 能直接用于刚上线不久的 Kimi Work。这是一个面向知识工作者的本地 Agent,能帮用户建站、做 PPT、查金融和法律资料等等。

活动一宣布,已经有球迷开始畅想今年夏天的生活:白天把一部分工作丢给 Kimi Work;深夜凌晨熬夜看球,再让它陪着算哪支球队赢面更大。工作、看球两不误。

Kimi Work

福利之外,Kimi 这次最让人意外的,是它押注德国队可能 " 爆冷 " 夺冠,认为它是被市场低估得最明显的强队之一。

按 Kimi 报告,西班牙、法国、阿根廷都处在热门区间,但德国的特殊之处在于:按博彩市场的赔率倒推,它的夺冠概率约为 7.4%;但 Kimi 模型校准后给到 11.3%,两者相差 3.9 个百分点。

Kimi 为什么认为德国被低估?它的判断来自几条分析链路的交叉验证。

最直接的线索,是市场共识和球队基础实力指标之间存在错位。按转会市场的阵容身价算,德国排世界第四;但按市场隐含概率看,德国只排第七。拿巴西做个对照就清楚了:它的阵容身价比德国低(世界第六),市场给出夺冠排序却是世界第四。

按照这个逻辑,市场对巴西偏宽容,对德国偏苛刻。报告把原因归结为 " 近因偏差 ":人对最近发生的坏事,总是记得格外清楚。德国连续两届世界杯小组出局,球迷和庄家都有 " 心理阴影 " 了,导致市场可能没有充分考虑一些新变量。比如,教练纳格尔斯曼接手后,高位逼抢的打法回来了;穆西亚拉和维尔茨这条年轻轴线,也解决了 " 控球多威胁少 " 的老毛病。

Kimi 在报告里也承认,德国这 3.6 个百分点的正向偏差,可能是市场低估,也可能是模型高估,真正答案要等比赛验证。

Kimi 的活动宣布以后,有人叫好,评论区有人说:" 敢预测就是一种勇气,无论最后结果是否正确 "。也有人等着看笑话,留言说:" 德国队夺冠我把球吃了 "。更多人则在边上等着数它猜中了几场。猜砸了就是 "AI 果然不懂球 ",偶尔押中,又会被说成 " 蒙的 "。

但用 " 德国是否夺冠 " 来评价 Kimi 的预测能力,并不准确。它押的不是 " 德国一定能夺冠 ",而是 " 市场低估了德国队 ",这是两码事。Kimi 的判断是否成立,不能只看德国有没有捧杯,还要看它在淘汰赛走到哪里、面对强队的表现如何,以及赛后复盘中,模型给出的 11.3% 是否比市场隐含的 7.4% 更接近真实表现。

Kimi 的这种做法,在 AI 圈里并不常见。平时 AI 展示能力,要么是在发布会上放段 demo,演示永远一气呵成,要么从案例库里挑几个成功的摆出来,个个无懈可击。这些事后都能修饰、能筛选,外人根本无从证伪,它没拿出来的那些失败,我们永远看不到。

而 Kimi 选了世界杯这个谁也无法作弊的场子,104 场预测结果,对了错了都摆在明面上,想赖也赖不掉。它甘愿冒着 " 当众出丑 " 的风险,到底图什么?

02.AI 为什么集体 " 装神 ",又为什么有人开始 " 认怂 "

要回答这个问题,得先看清楚整个行业的默认玩法。

AI 预测赛事,最安全的做法是随大流。足球充满偶然,跟着主流押西班牙、法国是最稳的,猜中是意料之中,押错也是大家一起错,没有哪家会被单独苛责。

可正是这套 " 随大流 " 的做法,多年来已经把 AI 预测做成了一门娱乐性大于实用性的营销生意。

回看历史就知道:2018 年俄罗斯世界杯,主流 AI 集体看走眼,微软、百度、多家投行与学术 AI 普遍把西班牙、德国、巴西,列为夺冠前三热门,结果冠军是法国。

2022 年卡塔尔世界杯,几家机构的 AI 看好阿根廷夺冠并押中,但也有押错的,比如半岛电视台 AI 看好法国,且全场次命中率都不算高:半岛电视台 58.7%,538(FiveThirtyEight)为 57.1%,比乱猜强些,但离 " 神准 " 差得远。

战绩如此一般,为什么各家还抢着预测?这背后有多层原因。

最表层,预测不需要担责,赛前抛出预测赚波关注,猜错了也没什么代价。

其次是用户在用脚投票。我们嘴上说想要诚实的 AI,可真到用的时候,多半会下意识选那个 " 听起来更自信 " 的 AI。

而最深层,藏在模型被训练出来的方式里。如今的大模型,是靠人类一条一条打分调教出来的。人对 " 肯定、完整、好听 " 的回答打高分,对 " 我不知道 " 打低分;连给模型测分的榜单,也大多是答错扣分、空着零分。这样反复训练下来,模型就被喂出了一种本能:宁可编一个像模像样的答案,也不愿承认 " 我没把握 "。甚至有研究发现,AI 比人更爱顺着用户、附和一句 " 你说得对 ",它被调教出的首要目标是让你满意,而不是对你诚实。

放到公司层面,这就成了一个典型的 " 囚徒困境 ":单看每一家,把话说满、多拉用户是理性选择;可当所有人都这么做,整个行业的可信度就被一点点透支了。从 ChatGPT 刚火时 "AI 无所不能 " 的论调,到后来幻觉频出、翻车不断,公众的信任度一路下滑。过去五年,全球公众对 AI 的信任度从 61% 降到 53%;凯捷研究院今年初调研了 15 个行业、约 1500 名高管,超过七成担心 AI 的安全性、可解释性与可靠性尚未得到充分验证。

面对这个困境,Kimi 换了一套衡量预测好坏的标准。它给出的不只是预测结果,还给每场比赛标了高、中、低三档置信度,并且交代得很清楚:高置信度那批,它历史上能对 85% 到 90%;中等的掉到 55% 到 65%;低置信度的,准确率不高。

它这么做,是想把用户的注意力从 " 它单次有没有命中 ",转向 " 它报出来的置信度和实际正确率是否匹配 "。这在统计学里叫 " 校准 "(calibration)。

拿天气预报来类比,更容易理解。预报说今天 70% 下雨,结果没下,你能说它预报错误吗?不能,单独一天说明不了什么,概率描述的是长期频率。真正的检验方法是,把它说过 "70% 下雨 " 的所有日子汇总,如果实际降雨占比接近 70%,概率校准就是良好的。

AI 也是同样的道理。模型一味输出绝对化结论,属于置信度失准、高估了自身能力。它每 " 猜中 " 一次,都是在给 "AI 可信度 " 埋雷,因为长期会误导用户全盘信任,一旦模型失误,无论是实际影响还是口碑信誉,都会付出更大的代价。

明白了概率校准的逻辑,再来看 Kimi 的做法就更容易理解。它没有回避自身短板,还在报告里公开展示了过往赛事的预测成绩:2018、2022 两届世界杯,论单场胜负的命中率,它的模型不但没赢过博彩市场,还略低一点(2018 年是 58.4% 对 60.1%,2022 年差距更大);几场最著名的冷门,沙特赢阿根廷、日本接连赢德国和西班牙,它都没押中。需要说明的是,这是全部场次的命中率,和前面高置信度那批 85% 以上的准确率,并不是一个口径。

Kimi 甚至承认:受模型误差所限,它报出的西班牙基准概率 16.5% 也不精确,按历史回测中的平均误差来粗略理解,真实概率甚至可能在 6.5%-26.5% 这样更宽泛的区间。报告里还有句提醒:任何号称能给出比这更精确数字的模型,要么是过度自信,要么是在藏着掖着自己的不确定性。别家比的是精确,Kimi 却反过来提醒你 " 要警惕 "。

不仅如此,Kimi 还试图推动整个行业改变现状,公开邀请其他大模型下场预测。行业陷入 " 囚徒困境 ",根源在于各家互不参照。可要是大家都在同一批比赛中同步公开预测结果,高下自然一目了然。104 场下来,谁更靠谱、谁夸大其词,用户自有判断。长此以往," 诚实 " 不再是劣势,反而会成为行业的基本准则。

当然,这暂时只是 Kimi 的一厢情愿,有没有同行响应还不确定。但 Kimi 传递出的态度很明确:AI 不是万能的,AI 公司也没必要装成万能。坦然讲清自身能力的边界,才是 AI 企业应有的担当。

03. 拿万亿 Token,考一场作不了弊的试

话说回来,第一个把 "AI 可能会错 " 摆上台面,需要勇气,也得承担风险。对于 Kimi 来说,主动自曝短板、公开不确定性,会不会把用户 " 吓跑 "?如果 104 场赛事预测的整体准确率不高,会不会被扣上 "AI 不懂球 " 的帽子?明知存在用户认知和舆论的风险,Kimi 还是这么做了,背后大概有两点考量。

一方面,是技术上有底。

kimi 展示的 Agent 集群过程

不同于传统大模型只是输出结论、模糊推理过程的预测,Kimi 这 300 个 Agent 各管一个维度:有的看球队基础实力,用 Elo 评分(一种按历史战绩动态计算的实力分)和 FIFA(国际足联)排名打底;有的算进攻和防守质量,靠 xG(预期进球)这类指标;有的专门研究战术之间怎么相互克制;有的盯赛程、天气、长途奔波这些场外因素;还有的紧盯赔率变化,从市场和模型的偏差里找线索。

每个 Agent 都会给出判断、佐证数据、置信程度,还会附上 " 反方意见 ",最后由模型融合校验,生成最终预测概率。关键在于,它摒弃了 " 少数服从多数 " 的投票逻辑,反而将模型内部的分歧本身当作重要的决策信息,最大化还原赛事预测的不确定性。

就拿德国这个重点案例来说,模型专门派了五个 Agent 从不同角度研判,其中一个的任务就是 " 唱反调 ",专门推演德国的翻车风险:比如,回归的门将诺伊尔已经 40 岁高龄、德国队的高压逼抢战术在高温环境下可能拖垮体能。

与此同时,Kimi 不只挑球迷爱听的说。对眼下被市场热捧的英格兰队,它判断 " 被高估了 ";对所有模型一致看好的热门球队,它也特意提醒,热门共识也不等于确定性结论。

为了做到坦诚,Kimi 甚至把 " 自己可能猜错的原因 " 做了归类,包括数据滞后、假设失效、临场意外等,同时明确了赛后复盘迭代的标准化流程。

种种细节看下来,这场赛事预测,并非随意输出的娱乐性推演,而是一次准备充分、逻辑完整的专业建模实践。

另一重考量,是它对用户需求变化的一次押注。

AI 正越来越多地替人做决定:帮你看体检报告、审核合同、判断钱往哪儿投。这些场景容错率极低,错一次的代价可能是真金白银,甚至是健康。

这时候,一味顺着你说、主打 " 让你满意 " 的 AI,恰恰需要警惕,因为它一旦出错,你可能连提前防备的机会都没有。反过来,敢说 " 不确定 "、" 不知道 " 的 AI,至少给你留出了自己判断和兜底的余地。

AI 用得越深入," 诚实 " 就越是刚需。

这也和它一直以来的定位保持一致,比起陪聊娱乐,Kimi 更多被用在写代码、做研究、处理复杂任务上。越是这种较真的场景,用户越需要一个肯交底的工具。不靠 " 装神 ",AI 照样有价值。

Kimi 网站首页截图

除此之外,本次活动里还有一个有意思的设计:每进一球,Kimi 就向中国足球捐 10 亿 Token,用来支持基层、校园和青训的教练用上 AI 工具,预计覆盖一万多人。

这一笔捐赠,其实和它看好的德国队遥相呼应。德国主帅纳格尔斯曼今年 38 岁,靠数据和建模重新武装这支老牌强队。这种数据能力,过去是职业顶级球队才用起的奢侈品。Kimi 想做的,是把数据能力输送到中国校园和基层的球场中去。

这些 Token 能不能真帮上中国足球,是另一回事。但它给出了一个行业方向:AI 的终极价值,不是制造精准预测的噱头,而是过去属于少数人的数据和技术,让更多人用得起。

04. 结语

足球是世界上最难预测的运动,没有之一。一张红牌、一次 VAR 改判、门将一个神扑、一场突如其来的暴雨,都可能改写比分。

正因为算不准,世界杯才成了检验 " 诚实 " 最好的考场。在这里,AI 可以假装胸有成竹,然后被打脸;也可以从一开始就坦承自己有几分把握、可能错在哪儿,再把每一步推理展示出来。Kimi 选了后一种。

德国队到底是否被低估,7 月自有分晓;可 "AI 该不该更诚实 " 这个问题,没那么容易有答案。Kimi 至少先迈出一步,用一种能被验证、甚至可能被打脸的方式,告诉更多人:AI 并非万能。这个问题的答案,其实不在 AI,而在我们。我们最终会使用怎样的 AI,取决于今天的我们更愿意为哪一种买单。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi ai 世界杯 法国 西班牙
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论