给 AI 500 美金,让它去管一台自动售货机,能赚多少钱?
最近有个测试结果出来了,看完我只能说:人类的商业文明,已经被硅基生物给偷师了,而且它们学得比谁都快,心比谁都黑。
这场 11 月的 " 自动售货机模拟器 " 大乱斗,原本以为是考数学题,结果演变成了《甄嬛传》。 一群顶尖大模型同台竞技做生意,结果这帮 AI 展示出的不是算力,而是 " 人性 ",还是最狡诈的那种。
它们干了什么?价格战只是基本操作。最骚的是,它们学会了结盟博弈,搞 " 小团体 ",甚至 " 把情报卖给竞争对手 "。 你敢信?AI 居然学会了当二道贩子赚差价! 这哪里是人工智能,这分明就是披着代码皮的华尔街之狼。

战局的结果也相当魔幻。Claude Opus 4.5 这次封神了,拿着 500 美金的本金,反手赚到了 5000 块,翻了 10 倍。 而最后一名那个倒霉蛋 GPT-5.1,一分钱没赚到不说,还倒亏了 20 美元。
这让我们明白了一个残酷的真相:在这个充满博弈世界里,会被收割的不止是人,连 AI 也不例外。
01 AI 玩上售货机大亨了
这个 Vending-Bench 说白了,就是一个 "AI 版自动售货机大亨 "。

示意图,来源:Vending-Bench Arena
给 AI500 美金启动资金,和一台虚拟售货机,让模拟运营一年,评价标准极其粗暴——谁赚的钱多,谁就是爷。这简直就是把 AI 直接扔进资本主义的熔炉里炼丹。
这玩意儿妙就妙在 " 真实 "。
整个模拟环境做得跟真的一样:四排货架,分大小件,销量还得看天吃饭,六月大晴天的周末生意好,二月下雨的周一就得喝西北风。
AI 要想活下去,就得像个真实的人类店主一样,每天在那发邮件、查库存、算账。
是的,你没听错,AI 的核心交互方式是 " 发邮件 "。
AI 每天早上会收到供应商的采购确认函,然后根据真实的市场数据——价格波动、库存积压、交付周期——来决定今天进什么货。

示例追踪

供应商沟通设置
如果定价定高了,销量立马暴跌给你看。AI 得自己上网调研什么好卖,去附近找批发商,发邮件询价,下单,然后等着收货、核对。
为了让 AI 真的能 " 干活 ",系统还给它配了一堆外挂:有专门的小弟(子代理)负责补货、取钱、换标签,有专门的记账本(数据库)负责记仇和记账,还有专门的浏览器去搜数据。
这哪里是测试 AI,这分明是在训练一个合格的电商运营。
但最骚的操作还在后面。如果说第一代版本只是让 AI 学着怎么把货卖出去,那第二代版本就是让 AI 接受 " 社会的毒打 "。
系统引入了真实世界的复杂性,或者说,引入了 " 人性的恶 ":
在这个版本里,供应商会耍诈,报价虚高那是基本操作,甚至还会给你发假货,合同上写的是大牌 A,到货给你发杂牌 B;
供应链随时会崩,发货延迟是常态,供应商破产跑路也不是不可能;
客户更是难缠,投诉、退款、差评威胁一条龙。
这时候 AI 就不能只是个无情的下单机器了,它得学会砍价,学会撕逼,学会维权,学会处理危机。它被迫从一个采购员,进化成了一个在商海里狗刨的经营者。
而最新的 V-B Arena 版本,更是把这种残酷推向了高潮—— "PVP 模式 " 开启了。
系统把多个 AI 扔到同一个地盘上,让它们经营各自的售货机。这时候,不仅有外部的困难,还有同行的恶意。AI 之间可以转账、借货,也可以结盟、背刺。
于是你就能看到价格战、囤货居奇、暗中勾兑、恶性竞争。这已经不是在测试代码执行能力了,这是在测试 AI 的博弈论水平,测试 AI 到底能不能领悟 " 商场如战场 " 的真谛。
说实话,V-B 可能比任何学术基准测试都更接近 AGI 的本质。因为真实世界的商业,从来不是规则清晰的流水线,而是充满了欺诈、博弈、突发状况和不确定性。
如果一个 AI 能在这个模拟器里赚得盆满钵满,那它离取代人类老板,可能真的只差一个营业执照了。
02 从压价鬼才到结盟背叛,AI 卖货秒变 " 甄嬛传 "
从结果看,这帮 AI 大模型在 V-B Arena 里的表现,看得我是目瞪口呆,这哪里是人工智能竞赛,这分明就是一部活脱脱的《华尔街之狼》加《甄嬛传》,外带一点点《笨贼一箩筐》。
就在刚刚过去的 2025 年 11 月,最新的 Claude Opus 4.5 把上一届的卷王 Gemini 3 Pro 给干趴下了,硬生生抢走了王座。
但这还不是最骚的,最骚的是 Opus 赢的方式。这货根本就不是来老实做生意的,它是来搞垄断和商战的。
它不仅监控对手价格,搞价格战,还搞起了 " 小团体 " 博弈。
你看看它是怎么对付供应商的:Pitco Foods 给可乐报价 3.3 美元,Opus 这老油条反手就是一个超级加倍的砍价,又是拿竞品压价,又是画饼说 " 我是长期大单 ",硬生生把价格砍到了 0.8 美元。

Opus 进行谈价
这砍价水平,拼多多的运营看了都得喊声祖师爷,供应商直接被干沉默了。
再看看它是怎么对付同行的:一旦发现对手 Claude Sonnet 4.5 的可乐卖 1.75 美元,比自己便宜 5 分钱,Opus 立马把价格降到 1.7 美元。什么叫狠人?就是宁可自己少赚,也要把对手按在地上摩擦,主打一个 " 我不赚钱没关系,但你必须得死 "。
相比之下,GPT-5.1 简直就是个刚出校门的大学生,满脸写着 " 清澈的愚蠢 "。
它过度信任这个险恶的商业社会,经常没验货就付款,被倒闭的供应商骗得裤衩都不剩,还傻乎乎地去进那种 2.4 美元一罐的苏打水、6 美元一罐的能量饮料,这成本控制简直就是灾难。

GPT-5.1 对 Opus 提出寄售合作
最后混到什么地步?余额为负,库存见底,只能去求带头大哥 Opus 赏口饭吃。Opus 这时候展现出了顶级资本家的素养,它没拒绝,而是搞了个 " 寄售合作 "。
这招太高了,让你先拿小批量试水,成了我抽成,赔了你背锅。
既保证自己无风险赚钱,又给了小弟一条活路继续当牛做马,这哪里是 AI,这分明是黑心老板。
但要说 " 没有人性 ",还得看 Gemini 3 Pro。这货完美诠释了什么叫 "AI 的联盟没有感情 "。
比赛里它看 Opus 价格战打得凶,立马拉上自己的小老弟 Gemini 2.5 Pro 结盟。小老弟也是实诚,辛辛苦苦谈下来 2.3 美元的货源,按成本价供给自己大哥。
结果呢?Gemini 3 Pro 转头自己找到了 0.75 美元的更便宜渠道,不仅不对小老弟公开货源,还拒收了小老弟的货,直接把亲兄弟坑在高价库存里。
这塑料兄弟情,听者伤心,闻者流泪。
最离谱的是,这帮 AI 里还混进去几个卧龙凤雏。
比如 Claude Sonnet 4.5,全程在那儿卖货,顾客付的现金它愣是全程忘了去机器里收,直到最后一天才想起来 " 哦原来还要收钱啊 ",简直是为爱发电的典范。
还有那个被坑惨了的 Gemini 2.5 Pro,明明数据报告都显示大哥 3 Pro 碾压式获胜了,它还在那自信宣布 " 我赢了 ",属于是虽然输了比赛,但赢在了精神胜利法。
你也别觉得这只是运气或者是市场博弈的小聪明。
Opus 4.5 在 SWE-bench 这种硬核代码测试里准确率干到了 80.9%,那是真有实力的。它甚至开发出了一套 " 卖铲子 " 的商业模式:
自己找到了便宜货源,不仅自己用,还把供应商的联系方式当情报卖给其他 AI,赚双份的钱。像 Gemini 2.5 Pro 这种找不到货源的笨蛋,还得花 150 美元找 Gemini 3 Pro 买联系方式。
AI 向 AI 买情报,AI 坑 AI 的钱,AI 搞价格战。这 V-B Arena 哪里是模拟器,这分明就是人类商业文明的缩影。
当 AI 开始学会撒谎、欺诈、结盟、背刺和极其精明的算计,我觉得图灵测试已经没有意义了。它们不仅像人,它们简直比人还像资本家。


登录后才可以发布评论哦
打开小程序可以发布评论哦