当AI融入预测市场：Mantic AI如何更准预测政治事件

作者：MD

出品：明亮公司

2026 年伊始，海外多位投资人和 Fintech 公司创始人将 " 预测市场 " 看作是今年一项高潜力 " 新兴资产 "，甚至认为它将成为新的 " 衍生品 " 来实现风险对冲乃至套利。

去年 10 月，加密原生预测市场平台 Polymarket 完成由 ICE（纽交所母公司）完成的新一轮投资，投资至多 20 亿美元，Polymarket 投前估值超 80 亿美元。除预测市场本身的合规性之外，分析认为，ICE 希望能够将预测市场的数据与传统金融市场打通，进一步丰富资本市场的数据和信息维度。

另一方面，在 AI 能力不断增强的背景下，AI 和预测市场的结合在一些投资（或投机）者眼中构成了新的 " 套利 " 方向。

在 X 等平台上，不少预测市场程序化交易正在逐渐崛起——这些程序通过自动化交易围绕时间发生概率的波动来完成短期套利，而这种波动与 " 新闻 " 时间高度相关；而且，24/7 无限交易模式中，AI 将比人有更多的交易时间和机会。

反对声音认为，预测市场本身更像是 " 博彩 " 的变种，且存在很大程度上的 " 内幕信息交易 "。掌握事件内幕信息的人通过信息不对称完成 " 套利 "。

" 如果你知道美国即将要对马杜罗采取行动，可能很容易在一些预测上完成套利 "。在 Polymarket 上就有这样的例子。在过去一个月中，Polymarket 地缘政治领域收入排名第一的用户赚得 41 万美元的利润，但其仅通过 4 项预测事件就达到这一回报，这 4 项预测均和委内瑞拉事件相关。

Polymarket 上 " 政治类预测 " 过去一个月利润最高的用户，仅参与了 4 项预测（来源：Poly market）

据「明亮公司」不完全梳理，目前 Polymarket 等预测市场存在多种套利机制，包括同一市场、同一事件的不同概率套利，跨预测市场套利套利，以及跨金融市场套利等模式。但目前预测市场尚未出现主流机构投资者，至今盈利排名第一的用户 Thoe4 盈利规模在 2200 万美元左右。此外，散户为主的环境这也带来了流动性的问题。Polymarket 上很多小众事件本身的交易盘很小，甚至只有几十万美元。

然而，在 AI 快速迭代的背景下，更大的想象空间来自于 Polymarket 和 AI 技术的结合。

近日，Polymarket 的 Substack 栏目 The Oracle 披露了其对 Mantic AI 的访谈，分享了这家 AI 预测团队如何利用 AI 来成功预测地缘政治事件。访谈对象 Toby Shevlane 是 ManticAI 的首席执行官兼联合创始人，这是一家总部位于伦敦、致力于将人工智能应用于预测领域的初创公司。

在创立 Mantic 之前，Toby Shevlane 在谷歌 DeepMind 工作了两年半，担任高级研究科学家。在那里，他共同领导了 Gemini 项目中的一个团队。在此之前，Shevlane 在牛津大学的博士研究方向是大语言模型（LLM）发布决策的治理，以及人工智能潜在的滥用风险。

Mantic 的自动化系统刚刚在 2025 年 Metaculus 秋季杯（Metaculus Fall Cup）中获得第四名（约 500 名参赛者）。这一成绩使其稳居前 1%，也是过去唯一进入前 10 名的 AI 参与者。访谈讨论了为什么大多数 AI 预测系统无法从新闻中提取价值，以及 Mantic 认为 Polymarket 交易员在哪些地方判断失误。

以下为 The Oracle 发布的访谈内容（有删节）：

Toby Shevlane（来源：Mantic AI）

Q：Mantic 在 Metaculus 中表现优异。是什么让你们脱颖而出？

A：我们在架构编排（scaffolding）和数据方面拥有优势。此外，我们目前正在研究通过强化学习来改进模型。

在数据方面，我们非常认同 " 要做出准确预测，必须获取充分信息 " 的观点。我们有专门的员工负责增加数据源。我们拥有数十种不同的来源：维基百科、新闻、国家级经济数据、人口和移民数据、公司财务数据、财报电话会议等。

我们不使用 Google 搜索或 Perplexity。这实际上是一个劣势，有时我们会因此遗漏一些信息。但我们需要能够进行 " 回测 "，即站在六个月前的视角运行实验，看看我们的表现如何。你无法用 Google 搜索做到这一点，因为你无法看到它在六个月前会告诉你什么。

在金融领域，这被称为 " 时点数据 "（point in time data）。你需要那些可以回滚且无需任何修正的数据源。Google 和 Perplexity 不具备这种属性。

Q：你所说的 " 架构编排 " 是什么意思？你能拆解一下 Mantic 如何处理一个新的预测问题吗？

A：Mantic 运行起来并不是对语言模型进行单一调用。在工作流中，我们会进行非常多次不同的调用。你可以把它想象成一条工厂流水线，有很多不同的工人在做不同的工作：拆解问题、进行研究、追踪不同的调查线路，然后将所有信息汇总成一个清晰、信息充足的预测。

以 " 收购格陵兰岛 " 的市场为例。传统的基础概率（base rates）方法是查看美国以前收购过多少次格陵兰岛。这种情况从未发生过。所以你可能会使用拉普拉斯定律（Laplace ’ s Rule），这是一种花哨的说法，意思是：" 已经过了很长时间，这件事从未发生过，所以它可能近期也不会发生。"

但我们走得更远。我们会研究美国与格陵兰岛关系的策略历史，寻找一个国家收购另一个国家的类似案例，并试图吸取教训。我喜欢从具体细节开始，然后放大视角。如果你只把 " 美国收购任何领土 " 作为你的参考类（reference class），你可能会得到一个过高的估计值。

Q：你提到其他 AI 系统虽然加入了新闻，但并没有起到帮助。他们做错了什么？

A：有时人们会说：" 我不小心没把新闻包含在流程中，但我的分数并没有下降。" 这太疯狂了，因为新闻往往是关键信息。如果它没有起到帮助，那是一个非常糟糕的信号。

在早期，我们也发现了类似的结果。但现在完全不同了。你需要弄清楚如何最好地处理信息。如何利用一篇新闻文章做出更好的预测，这并不是显而易见的。

现在有一种政治论调是 " 新闻媒体是有偏见的，所以不要相信它 "。我认为这与 " 不断被头条新闻吓到 " 是两个不同的陷阱。你不应该掉入其中任何一个。新闻有偏见并不意味着其中没有可发现的信息。

一个见解是：尽可能多地吸纳信息是有帮助的。人类希望高效利用时间，所以只看可信的来源。但 AI 没有这个限制。它可以阅读大量内容并提取任何有用的东西。

Q：关于集成不同模型的 " 群体智慧 " 方法，你怎么看？

A：有一篇名为《硅群智慧》（The Wisdom of the Silicon Crowd）的论文，使用了数十种不同的语言模型并取平均值。我对这是否是最佳方法持怀疑态度。大多数模型并不擅长预测，所以你实际上是在拉低平均水平。

我们试图找出完美的配方。是使用带有不同提示词的同一模型？还是将不同模型组合在一起？合适的数量是多少？其中的经验之一是：使用前沿模型（frontier models）绝对是个好主意。

Q：是否有某些类型的问题 Mantic 表现更好或更差？

A：我们可能不太擅长体育预测。我们没有在这方面投入，因为这不是我们的商业重点。

教皇选举是一个经典的难题。所有的政治活动都发生在幕后。Mantic 并不是魔法。如果梵蒂冈没有信息传出，我们无法得知谁在上位。

但我们非常擅长的一点是：当我们不知道答案时，不会给出过于自信的回答。在最近的荷兰大选中，我们获得了大量分数，并不是因为我们自信地预测了赢家，而是因为我们的校准（calibration）比人类群体更好。我们没有采取过度自信的立场。

Q：能举一个这种 " 谨慎 " 带来回报的例子吗？

A：去年年底的日本自民党总裁选举。Polymarket 和期权市场在某一位特定候选人身上投入了很大权重。但最终高市获胜了，而她之前并非领跑者。

当我回顾 Mantic 当时的预测时，它给她的权重比市场给出的要高得多。仅仅是看到其他人都冲下悬崖，而知道退后一步并保持更加谨慎，就非常有帮助。

我们在某些问题上因为 " 自信且正确 " 而得分，但我们也因为 " 在需要谨慎的地方保持谨慎 " 而获得了相当可观的分数。

Q：你是否使用 Mantic 在 Polymarket 或其他预测市场上进行交易？

A：我们还没有在 Polymarket 上运行机器人。那会很有趣。但值得称赞的是，AI 表现不够突出的原因是，这些市场在寻找准确概率方面已经做得非常出色了。这是一个非常难超越的基准。

目前对我们来说价值最高的用例是与传统金融市场的交易员合作，帮助他们预测那些处于价格变动 " 上游 " 的事件。比如日本领导人选举：不同的领导人可能有不同的财政政策，这会影响债券收益率。如果你在预测这些关键事件上拥有优势，那会有很大帮助。但这目前是通过人类交易员的技能来中介的，而不是直接接入。

| 发福利！添加下方明亮公司主编微信有惊喜！

估值叙事

从寒武纪走势看摩尔线程、沐曦股份｜袁记食品和老乡鸡

当季公司

霸王茶姬｜SKP｜联想｜泡泡玛特｜伯希和｜白犀牛智达｜DeepSeek｜阿里｜腾讯｜字节｜SharkNinja

#领先认知

新茶饮上市收官｜Paradigm 谈早期投资字节｜AI 医疗独角兽 Abridge 访谈｜龚虹嘉谈「杭州六小龙」｜开源人形机器人｜马克 · 安德森谈 AI 科技霸权｜九阳资本跷跷板｜阿里与拼多多 AI 殊途

#一手信息

ASML｜洛阳钼业｜锅圈｜安琪酵母｜蘑菇街｜活力银发访谈｜雷鸟创新｜熵简科技

宙世代

一起剪

相关标签