作者:MD
出品:明亮公司
2026 年伊始,海外多位投资人和 Fintech 公司创始人将 " 预测市场 " 看作是今年一项高潜力 " 新兴资产 ",甚至认为它将成为新的 " 衍生品 " 来实现风险对冲乃至套利。
去年 10 月,加密原生预测市场平台 Polymarket 完成由 ICE(纽交所母公司)完成的新一轮投资,投资至多 20 亿美元,Polymarket 投前估值超 80 亿美元。除预测市场本身的合规性之外,分析认为,ICE 希望能够将预测市场的数据与传统金融市场打通,进一步丰富资本市场的数据和信息维度。
另一方面,在 AI 能力不断增强的背景下,AI 和预测市场的结合在一些投资(或投机)者眼中构成了新的 " 套利 " 方向。
在 X 等平台上,不少预测市场程序化交易正在逐渐崛起——这些程序通过自动化交易围绕时间发生概率的波动来完成短期套利,而这种波动与 " 新闻 " 时间高度相关;而且,24/7 无限交易模式中,AI 将比人有更多的交易时间和机会。
反对声音认为,预测市场本身更像是 " 博彩 " 的变种,且存在很大程度上的 " 内幕信息交易 "。掌握事件内幕信息的人通过信息不对称完成 " 套利 "。
" 如果你知道美国即将要对马杜罗采取行动,可能很容易在一些预测上完成套利 "。在 Polymarket 上就有这样的例子。在过去一个月中,Polymarket 地缘政治领域收入排名第一的用户赚得 41 万美元的利润,但其仅通过 4 项预测事件就达到这一回报,这 4 项预测均和委内瑞拉事件相关。
Polymarket 上 " 政治类预测 " 过去一个月利润最高的用户,仅参与了 4 项预测(来源:Poly market)
据「明亮公司」不完全梳理,目前 Polymarket 等预测市场存在多种套利机制,包括同一市场、同一事件的不同概率套利,跨预测市场套利套利,以及跨金融市场套利等模式。但目前预测市场尚未出现主流机构投资者,至今盈利排名第一的用户 Thoe4 盈利规模在 2200 万美元左右。此外,散户为主的环境这也带来了流动性的问题。Polymarket 上很多小众事件本身的交易盘很小,甚至只有几十万美元。
然而,在 AI 快速迭代的背景下,更大的想象空间来自于 Polymarket 和 AI 技术的结合。
近日,Polymarket 的 Substack 栏目 The Oracle 披露了其对 Mantic AI 的访谈,分享了这家 AI 预测团队如何利用 AI 来成功预测地缘政治事件。访谈对象 Toby Shevlane 是 ManticAI 的首席执行官兼联合创始人,这是一家总部位于伦敦、致力于将人工智能应用于预测领域的初创公司。
在创立 Mantic 之前,Toby Shevlane 在谷歌 DeepMind 工作了两年半,担任高级研究科学家。在那里,他共同领导了 Gemini 项目中的一个团队。在此之前,Shevlane 在牛津大学的博士研究方向是大语言模型(LLM)发布决策的治理,以及人工智能潜在的滥用风险。
Mantic 的自动化系统刚刚在 2025 年 Metaculus 秋季杯(Metaculus Fall Cup)中获得第四名(约 500 名参赛者)。这一成绩使其稳居前 1%,也是过去唯一进入前 10 名的 AI 参与者。访谈讨论了为什么大多数 AI 预测系统无法从新闻中提取价值,以及 Mantic 认为 Polymarket 交易员在哪些地方判断失误。
以下为 The Oracle 发布的访谈内容(有删节):
Toby Shevlane(来源:Mantic AI)
Q:Mantic 在 Metaculus 中表现优异。是什么让你们脱颖而出?
A:我们在架构编排(scaffolding)和数据方面拥有优势。此外,我们目前正在研究通过强化学习来改进模型。
在数据方面,我们非常认同 " 要做出准确预测,必须获取充分信息 " 的观点。我们有专门的员工负责增加数据源。我们拥有数十种不同的来源:维基百科、新闻、国家级经济数据、人口和移民数据、公司财务数据、财报电话会议等。
我们不使用 Google 搜索或 Perplexity。这实际上是一个劣势,有时我们会因此遗漏一些信息。但我们需要能够进行 " 回测 ",即站在六个月前的视角运行实验,看看我们的表现如何。你无法用 Google 搜索做到这一点,因为你无法看到它在六个月前会告诉你什么。
在金融领域,这被称为 " 时点数据 "(point in time data)。你需要那些可以回滚且无需任何修正的数据源。Google 和 Perplexity 不具备这种属性。
Q:你所说的 " 架构编排 " 是什么意思?你能拆解一下 Mantic 如何处理一个新的预测问题吗?
A:Mantic 运行起来并不是对语言模型进行单一调用。在工作流中,我们会进行非常多次不同的调用。你可以把它想象成一条工厂流水线,有很多不同的工人在做不同的工作:拆解问题、进行研究、追踪不同的调查线路,然后将所有信息汇总成一个清晰、信息充足的预测。
以 " 收购格陵兰岛 " 的市场为例。传统的基础概率(base rates)方法是查看美国以前收购过多少次格陵兰岛。这种情况从未发生过。所以你可能会使用拉普拉斯定律(Laplace ’ s Rule),这是一种花哨的说法,意思是:" 已经过了很长时间,这件事从未发生过,所以它可能近期也不会发生。"
但我们走得更远。我们会研究美国与格陵兰岛关系的策略历史,寻找一个国家收购另一个国家的类似案例,并试图吸取教训。我喜欢从具体细节开始,然后放大视角。如果你只把 " 美国收购任何领土 " 作为你的参考类(reference class),你可能会得到一个过高的估计值。
Q:你提到其他 AI 系统虽然加入了新闻,但并没有起到帮助。他们做错了什么?
A:有时人们会说:" 我不小心没把新闻包含在流程中,但我的分数并没有下降。" 这太疯狂了,因为新闻往往是关键信息。如果它没有起到帮助,那是一个非常糟糕的信号。
在早期,我们也发现了类似的结果。但现在完全不同了。你需要弄清楚如何最好地处理信息。如何利用一篇新闻文章做出更好的预测,这并不是显而易见的。
现在有一种政治论调是 " 新闻媒体是有偏见的,所以不要相信它 "。我认为这与 " 不断被头条新闻吓到 " 是两个不同的陷阱。你不应该掉入其中任何一个。新闻有偏见并不意味着其中没有可发现的信息。
一个见解是:尽可能多地吸纳信息是有帮助的。人类希望高效利用时间,所以只看可信的来源。但 AI 没有这个限制。它可以阅读大量内容并提取任何有用的东西。
Q:关于集成不同模型的 " 群体智慧 " 方法,你怎么看?
A:有一篇名为《硅群智慧》(The Wisdom of the Silicon Crowd)的论文,使用了数十种不同的语言模型并取平均值。我对这是否是最佳方法持怀疑态度。大多数模型并不擅长预测,所以你实际上是在拉低平均水平。
我们试图找出完美的配方。是使用带有不同提示词的同一模型?还是将不同模型组合在一起?合适的数量是多少?其中的经验之一是:使用前沿模型(frontier models)绝对是个好主意。
Q:是否有某些类型的问题 Mantic 表现更好或更差?
A:我们可能不太擅长体育预测。我们没有在这方面投入,因为这不是我们的商业重点。
教皇选举是一个经典的难题。所有的政治活动都发生在幕后。Mantic 并不是魔法。如果梵蒂冈没有信息传出,我们无法得知谁在上位。
但我们非常擅长的一点是:当我们不知道答案时,不会给出过于自信的回答。在最近的荷兰大选中,我们获得了大量分数,并不是因为我们自信地预测了赢家,而是因为我们的校准(calibration)比人类群体更好。我们没有采取过度自信的立场。
Q:能举一个这种 " 谨慎 " 带来回报的例子吗?
A:去年年底的日本自民党总裁选举。Polymarket 和期权市场在某一位特定候选人身上投入了很大权重。但最终高市获胜了,而她之前并非领跑者。
当我回顾 Mantic 当时的预测时,它给她的权重比市场给出的要高得多。仅仅是看到其他人都冲下悬崖,而知道退后一步并保持更加谨慎,就非常有帮助。
我们在某些问题上因为 " 自信且正确 " 而得分,但我们也因为 " 在需要谨慎的地方保持谨慎 " 而获得了相当可观的分数。
Q:你是否使用 Mantic 在 Polymarket 或其他预测市场上进行交易?
A:我们还没有在 Polymarket 上运行机器人。那会很有趣。但值得称赞的是,AI 表现不够突出的原因是,这些市场在寻找准确概率方面已经做得非常出色了。这是一个非常难超越的基准。
目前对我们来说价值最高的用例是与传统金融市场的交易员合作,帮助他们预测那些处于价格变动 " 上游 " 的事件。比如日本领导人选举:不同的领导人可能有不同的财政政策,这会影响债券收益率。如果你在预测这些关键事件上拥有优势,那会有很大帮助。但这目前是通过人类交易员的技能来中介的,而不是直接接入。
| 发福利!添加下方明亮公司主编微信有惊喜!
估值叙事
当季公司
霸王茶姬|SKP|联想|泡泡玛特|伯希和|白犀牛智达|DeepSeek|阿里|腾讯|字节|SharkNinja
#领先认知
新茶饮上市收官|Paradigm 谈早期投资字节|AI 医疗独角兽 Abridge 访谈|龚虹嘉谈「杭州六小龙」|开源人形机器人|马克 · 安德森谈 AI 科技霸权|九阳资本跷跷板|阿里与拼多多 AI 殊途
#一手信息


登录后才可以发布评论哦
打开小程序可以发布评论哦