AI当CEO大赛:海外模型赚千万,DeepSeek跑了3次全破产

CEO-Bench 做了一个很有意思的测试：给 AI 大模型 100 万美元初始资金，让它运营一家模拟初创公司 500 天，看最后剩下多少钱。

近日测试成绩终于出炉，13 个智能体参赛，结果相当扎心。

五个模型跑了 3 次，3 次全破产—— Grok 4.20 平均只活了 28 天，DeepSeek V4 Pro 活了 114 天，Gemini 3 Flash 和 GLM 5.1 也没撑过 160 天，Claude Haiku 4.5 也是 3 次全破产。

再加上 Kimi K2.6 破产 1 次、GPT-5.5 破产 2 次，整个测试里接近一半的运行以破产收场。

更尴尬的是，一个不涉及任何 AI 的规则基线，就是按固定逻辑执行决策的简单程序，最终拿到了 1576 万美元，赢了 10 个 AI 模型。

也就是说，你花大价钱调用的智能体，还不如几条 if-else 规则管钱管得好。

当然头部模型确实厉害。Claude Fable 5 最佳运行赚到 4715 万美元，Claude Opus 4.8 拿到 2778 万，GPT-5.5 拿到 2130 万。但只有这三个的最佳成绩超过了 100 万初始资金，而且 Claude Fable 5 是唯一一个两次运行都高于初始资金的模型，稳定性远超其他。

GPT-5.5 的策略很激进。3 次运行里 2 次破产，但赚到 2130 万的那次确实猛——它会根据市场变化反复调整获客、研发、定价，工具使用分布均匀，89% 的研发预算精准投向客户群定向改进。高风险高回报，赌对了就是第三名，赌错了直接归零。

Claude Opus 4.8 的路子与 GPT-5.5 完全不同。它的最佳运行中途客户数跌到 0，靠控制成本硬撑到了 2778 万。

有意思的是 AI 操作频率跟结果没什么关系。GLM 5.1 平均每周操作 51.5 次，3 次全破产。Claude Fable 5 平均每周只操作 15.4 次，却跑出了最高分。忙着折腾不如折腾对了。

头部模型还有个别的模型做不到的事——它们会自己写代码辅助决策。Claude Opus 4.8 在运行中写代码模拟不同场景的现金流，GPT-5.5 写代码从谈判数据里推断客户的价格偏好。这已经不是调参数了，是 AI 给自己造工具。

但整体来看，AI 当 CEO 这件事目前还很不靠谱。多数模型连 500 天都活不过去，距离 AI 真的能掌舵一家公司，路还很长。

宙世代

一起剪

相关标签