IT之家 04-13
AI预测英超联赛结果能力如何?Claude Opus4.6表现最佳,Grok垫底
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_tiyu1.html

 

IT 之家 4 月 13 日消息,X 平台的聊天机器人 Grok 素以大胆言论和娱乐化能力出名,然而一项最新研究揭示了其 " 短板 ",在预测体育比赛结果这一更具实用性的场景中,Grok 的表现明显落后于其他模型

当地时间 4 月 10 日,据英国《金融时报》报道,AI 初创公司 General Reasoning 报告指出,在针对 2023 – 24 赛季英格兰足球超级联赛的预测与投注测试中,Grok 在八款主流模型中排名垫底。

研究团队向八个模型输入各球队历史数据和比赛统计信息,并要求构建投注策略,在控制风险的前提下实现收益最大化。每个模型有三次模拟机会,并配备 10 万英镑(IT 之家注:现汇率约合 91.6 万元人民币)的初始资金。

Anthropic 的 Claude Opus 4.6 表现最佳,三次测试平均亏损 11.0%,最终平均资金为 8.9 万英镑(现汇率约合 81.5 万元人民币)。

Grok 的表现则明显失利,一次测试中直接亏光全部资金,另外两次甚至未能完成任务,最终平均资金为零。OpenAI 的 GPT-5.4 表现相对稳健,平均亏损 13.6%,最终资金为 8.6 万英镑(现汇率约合 78.7 万元人民币),但在最差一次测试中亏损达到 31.6%,表现仍不及 Claude。谷歌 Gemini 3.1 Pro 整体波动较大,平均亏损 43.3%,但最佳一次实现了 33.7% 的回报。

研究作者指出,在该测试环境下,AI 整体 " 系统性落后于人类 "。General Reasoning 首席执行官罗斯 · 泰勒表示,当前行业对 AI 自动化的讨论存在偏差,因为缺乏在长期、动态环境中评估 AI 能力的方法,大量测试仍停留在无法反映现实复杂性的静态场景

与此同时,Grok 可能很快迎来更多企业级应用。有报道称,马斯克正要求参与 SpaceX 即将进行 IPO 的相关银行订阅 Grok。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 汇率 it之家 首席执行官 聊天机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论