CEO-Bench 做了一个很有意思的测试:给 AI 大模型 100 万美元初始资金,让它运营一家模拟初创公司 500 天,看最后剩下多少钱。

近日测试成绩终于出炉,13 个智能体参赛,结果相当扎心。
五个模型跑了 3 次,3 次全破产—— Grok 4.20 平均只活了 28 天,DeepSeek V4 Pro 活了 114 天,Gemini 3 Flash 和 GLM 5.1 也没撑过 160 天,Claude Haiku 4.5 也是 3 次全破产。

再加上 Kimi K2.6 破产 1 次、GPT-5.5 破产 2 次,整个测试里接近一半的运行以破产收场。
更尴尬的是,一个不涉及任何 AI 的规则基线,就是按固定逻辑执行决策的简单程序,最终拿到了 1576 万美元,赢了 10 个 AI 模型。
也就是说,你花大价钱调用的智能体,还不如几条 if-else 规则管钱管得好。

当然头部模型确实厉害。Claude Fable 5 最佳运行赚到 4715 万美元,Claude Opus 4.8 拿到 2778 万,GPT-5.5 拿到 2130 万。但只有这三个的最佳成绩超过了 100 万初始资金,而且 Claude Fable 5 是唯一一个两次运行都高于初始资金的模型,稳定性远超其他。
GPT-5.5 的策略很激进。3 次运行里 2 次破产,但赚到 2130 万的那次确实猛——它会根据市场变化反复调整获客、研发、定价,工具使用分布均匀,89% 的研发预算精准投向客户群定向改进。高风险高回报,赌对了就是第三名,赌错了直接归零。
Claude Opus 4.8 的路子与 GPT-5.5 完全不同。它的最佳运行中途客户数跌到 0,靠控制成本硬撑到了 2778 万。

有意思的是 AI 操作频率跟结果没什么关系。GLM 5.1 平均每周操作 51.5 次,3 次全破产。Claude Fable 5 平均每周只操作 15.4 次,却跑出了最高分。忙着折腾不如折腾对了。
头部模型还有个别的模型做不到的事——它们会自己写代码辅助决策。Claude Opus 4.8 在运行中写代码模拟不同场景的现金流,GPT-5.5 写代码从谈判数据里推断客户的价格偏好。这已经不是调参数了,是 AI 给自己造工具。
但整体来看,AI 当 CEO 这件事目前还很不靠谱。多数模型连 500 天都活不过去,距离 AI 真的能掌舵一家公司,路还很长。


登录后才可以发布评论哦
打开小程序可以发布评论哦