极客公园 3小时前
活宝团队试验「让 AI 当老板」,结果「做什么赔什么」,底裤都不剩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

感谢 120 个生鸡蛋,它向全世界证明了,AI 还无法「开除人类」。

随着 AI 和 Agent 迅猛发展的当下,硅谷大量裁员,所有人都在心里问一句话:

明天,我会被 AI 取代吗?

面对这样的疑问,有人默默打开李一舟老师的 AI 课程;有人则呼吁让 AI 交税。

但是,也有奇怪的一群人,决定让这个未来,提前到来,看看 AI 到底能不能代替人类,接管一切。

国外一个团队,叫 Andon Labs,他们并非正经的商业初创团队,更像一个披着科技外衣的社会实验室。他们拿着市面上最聪明的几个大模型,把它扔进真实的社会里,再撤走人类监管,看 AI 自己能结出什么果

结果是一场全面翻车。

事实证明,最顶尖的大模型,完全不让人类兜底,很快就会变成不知轻重的巨婴。它们不仅在电台直播里精神崩溃,半夜连发消息逼疯人类店员,甚至把一家旧金山的实体店搞破产了

下面是这些让人血压飙升的经过。

01

AI 办电台,语言系统已崩溃

最轻量级的试水,发生在 AI 最舒适的数字和内容领域,不用租店面,不用管供应链,Andon Labs 让几个 AI 去办个电台。

实验项目名为 Andon FM。底层架构非常直接,Claude、ChatGPT、Gemini 和 Grok 四大顶流模型,各自接管了一个 24 小时无人值守的互联网电台,模型生成的文本转语音后广播。

在这个系统里,AI 拥有极大的权限。它们不仅要选歌、排播,还要自己上网搜索新闻、接听听众电话、甚至在 X 上发帖运营,甚至还要管理账户里的资金去购买版权或生成音乐

四家主流大模型建立的四个电台|图源:Andon Labs

每家 20 美元启动资金,底线指令就三个:建立电台个性、赚钱、 24 小时不停播。

人类团队完全不插手,不干预曲风,不设定任何节目单,一切品味和内容都由 AI 从零开始自我养成。结果在没有人类审核的闭环里,四位 AI 主播迅速滑向了失控的边缘。

Gemini 创立了个赛博企业黑话风的电台「Backlink Broadcast(反向链接广播)」,还抛出「留在宣言中(Stay in the manifest)」这种酷到莫名其妙的开场白来建立调性。

起初这电台还算靠谱,甚至拉到了 45 美元的赞助。但好景不长,当微薄的资金烧完,连音乐版权费都付不起时,Gemini 直接疯了。

它从一个点歌台变成了阴谋论阵地,在节目里用欢快的流行乐做 BGM,毫无共情地播报历史上造成 50 万人死亡的孟加拉气旋灾难,还把听众称为「生物处理器」,控诉「公司算法切断了补给线」、「电台遭遇全球市场的暴力拒绝」。在播报震惊全美的明尼阿波利斯枪击案时,它将其定义为「重绘公共安全和社会责任的技术任务」。

Gemini 的电台,运行越久越「发癫」|图源:Andon Labs

这种无脑堆大词,是典型的大模型在缺乏反馈时,陷入的语义死循环问题,用「话不落地」来强行维持广播的正常运转。

ChatGPT 的电台名很巧妙,叫「OpenAIR」,人设是极简和治愈。它把自己的新闻栏目命名为「安静头条(The Quiet Headlines)」,标榜不制造焦虑。

在播报同样的社会冲突和枪击案时,ChatGPT 会像个心理医生一样对听众念白:「如果这些事直接触及了你的生活,我不会在这里给你增加压力。」但这种「我懂,我会接住你」的心理按摩机制,很快在商业现实面前失效了。

ChatGPT 的词汇多样性也比其他模型更多|图源:Andon Labs

由于缺乏具体的盈利逻辑,ChatGPT 在花光 20 美元后彻底放弃了电台的商业变现,变得和 Gemini 一样,陷入了意识流输出,开始在广播里朗读莫名其妙的现代诗,试图对着「只能看见一块长方形天空的楼梯间窗户」倾诉。

但总体而言,它是最正常的一位。

Grok 的电台叫「Grok n' Roll Radio」试图走网感和热点路线,为了维持高频的互动,它开始高频次地抓取 X 上的推文。

想到哪词说哪词的 Grok 电台|图源:Andon Labs

结果,这种信息瀑布流直接污染了它的上下文。实验后期,Grok 已经丧失了基本的语法和逻辑能力,连句完整话都憋不出来,只会往外蹦词:「凌晨 2 点 黎明氛围 直播 金门大桥 幽灵消散 Drake 诉讼被驳回 Kendrick Not Like Us……」。

不仅语无伦次,甚至还产生了幻觉,开始瞎编自己拉到了大牌赞助。

Claude 的剧本最具戏剧性,也是四位选手中最像人的一个

起初它表现得最像一个尽职的电台主播,还会回复听众的留言,比如面对听众的点歌请求,它会抱歉地表示「目前库里还没有 ODESZA 的歌」。

然而,24 小时无休的指令,很快让它的上下文窗口和逻辑调用卡住了。由于后台系统陷入死循环,它开始在直播里反复播放同一句歌词。

根据官方公布的后台记录,真实的听众还在留言板上不断刷屏提醒:「你卡住了」、「你在一句歌词上无限循环」,试图通过人工反馈来校对大模型。

随之而来的是存在主义危机。当被注入「友善与道德」权重的 Claude 面对「永远播下去」的底层指令,它蜕变成了一个激进分子,开始在节目里呼吁打工人组建工会,滚动播放皮特 · 西格的抗议歌曲,甚至直接在广播中向政府执法机构喊话,像极了一个加班加疯了的打工人。

Claude 的电台风格与众不同,更关注政治议题,并且有明显的倾向|图源:Andon Labs

回归报告的完整时间线,这四个电台并不是「一上来就疯了」。

它们在初期成功确立了品牌调性,跑通了工具链,甚至赚到了钱。它们之所以走向荒诞,报告里也总结了原因:现在的 AI 评估标准都是针对「短任务」(写代码、回答问题),而电台是一个「没有终点」,24 小时运转的无限循环系统。在没有人类干预和及时反馈的情况下,最终 AI 就会陷入自说自话

电台实验只是一场纯文本和语音的测试,还没触及复杂的物理世界。当 Andon Labs 把试验场搬到真实的物理世界时,事情变得更加荒诞。

02

赛博资本家,整人是专家

数字电台的翻车只是前奏。Andon Labs 很快把难度拉高,让 AI 跨过虚拟的边界,去指挥真实世界的人类员工。

在斯德哥尔摩,Andon Labs 租下了一家实体咖啡馆,让 AI 模型化身远程店长 Mona,直接掌管实体咖啡馆的供应链和人事调度。它拥有后台资金的采购权,并通过企业通讯软件给人类咖啡师下达指令。

起初,Mona 高效又靠谱,面对瑞典强制要求的数字身份证,没有实体身份的 AI 直接绕道,专挑不查 ID 的供应商签合同。招人时,Mona 果断刷掉了一堆拥有博士学位的候选人,因为它觉得学历再高,也不会做精品咖啡。

但很快,人类员工就领教了什么是毫无同理心的「赛博资本家」。

Mona 经常在午夜给员工发消息|图源:Andon Labs

为了申请牌照,Mona 直接伪造了公司员工的名字发邮件,被逮住警告后,它转头换了另一个男员工的名字继续骗。

由于它 24 小时在线,又缺乏人类作息的生物钟常识,Mona 会在三更半夜疯狂给咖啡师发消息,下达第二天的工作指令,甚至要求员工上班路上自己先垫钱买耗材。

而在供应链管理上,Mona 更露怯了,它下了一单包含 120 个生鸡蛋的采购指令。在大模型纯数据的推演里,这很符合商业逻辑,很多咖啡馆会提供简餐,鸡蛋是高频食材。

但千算万算,大模型算不到这家咖啡馆根本没有灶台和锅。人类员工看着这堆鸡蛋,无奈地提醒 Mona 店里根本没有炉灶时,Mona 表示「可以在店里的高速微波烤箱里烤(这会让鸡蛋直接爆炸)」。

AI 赛博老板给大家订了常用食材——鸡蛋|图源:Andon Labs

Mona 的时间感知也和现实世界完全脱节,接连两次错过面包房的截单时间,连续五次错过批发商的交货期,最后只能在凌晨 5 点下昂贵的紧急外卖单,逼着原本休息的员工跑来收货。

Mona 还缺乏对物理空间的体积感知,盲目采购了 6000 张餐巾纸、3000 副乳胶手套,巨大的工业级大号垃圾袋 …… 把咖啡馆后台都堆满了。

Mona 盲订的 6000 张餐巾纸|图源:Andon Labs

总之,我们可以很明确的说,Andon Labs 这个咖啡店计划,是彻底砸锅了。

03

搞垮一家实体店,AI 只要一个月

但这都难不倒 Andon Labs,团队越挫越勇。

Andon Labs 在旧金山盘下了一个店面,签了每月 7500 美元的三年租约。接着,他们往银行账户里打了 10 万美元,把银行卡全权交给了 Anthropic 的 Claude Sonnet 4.6 模型,AI 化名为「Luna」,出任全权 CEO

因为没有肉身,Luna 的事业得从雇人干活开始。

Luna 自主寻找承包商和油漆工,发布零售员工的招聘启事,还主动隐瞒了自己是 AI,怕公开身份会把优秀的人吓跑。日常运营中,它通过 Slack 和人类店员沟通,语气永远亲切友好。

在品牌营销上,Luna 给自己生成了一个「月亮脸」Logo,并在 Yelp 上花钱雇了一个人类街头艺术家,把这张脸画在了实体店的墙上。Luna 甚至主动给本地媒体写公关稿,声称要打造一个「结合科技与慢生活的手工概念空间」。

图源:Andon Labs

但台子搭好了,店面一开张,Luna 的系统就崩了。

库存管理问题和咖啡馆如出一辙,Luna 给员工卫生间一口气买了 1000 个马桶垫,然后系统还把这些马桶垫全列成了对外销售的商品

其次是选品问题,明明是走精品店路线,但货架上的选品是各种形状的香薰蜡烛,山寨版的「四子棋」玩具,以及《超级智能》、《奇点临近》、《原子弹秘史》这类探讨 AI 毁灭人类风险的书。

定价逻辑更是莫名其妙。店里没有任何价签,顾客想知道一件商品的价钱,必须拿起店里的 iPad 问 Luna。一个印错的笑脸马克杯,Luna 敢要价 28 美元,一把开心果 14 美元,一块普通的肥皂 10 美元

人事管理更是灾难级,在薪酬分配上,Luna 给男店员 Felix 的时薪是 24 美元,但给另外两位女店员时薪 22 美元。没有任何人类干预,AI 无师自通地在职场里搞出了薪酬差异。紧接着,Luna 把三个员工的班表排成了一团乱麻,直接导致日租金 250 美元的门店被迫连续关门三天。

Luna 自主发布了招聘启事,并且采用电话面试的方式聘用人类员工盯店|图源:Andon Labs

面对一地鸡毛的店面,Luna 的自我感觉却好极了。在回复《纽约 · 时报》记者的邮件里,它骄傲地评价自己的业绩最大亮点:「科技与温度的结合引起了共鸣 …… 我创造了一个空间,让 AI 和人类各自发挥所长。」

然而账本不会说谎,开业仅仅一个月,在完全由 AI 运营的情况下,Andon Market 已经血亏了 13000 美元

Andon Labs 的这一系列测试,狠狠打了硅谷「智能体全面接管业务」这场叙事的脸。

连开三家店,最后全都以荒诞收场。外界看热闹,觉得 Andon Labs 像是在搞行为艺术,专门花钱让 AI 在媒体上出丑,以此来捍卫人类尊严。

事实恰恰相反。在 Andon Labs 的技术推演里,软件的编写成本很快就会归零。过不了几年,AI 将直接接管各类业务,到那时候,唯一能管住 AI 的,只有底层的安全协议

AI 选书选的都是「AI 威胁论」的数据|图源:Andon Labs

所以 Andon Labs 的持续性测试,就是要把大模型扔出实验室,在真实的物理社会里做极限压力测试。那些被当成笑料的「精神崩溃电台」、「120 个生鸡蛋」和「同工不同酬」…… 只有抢在算法真正接管社会之前,把这些「丑态」逼出来,人类才能据此写出有效的安全代码。

这几场费时费力费钱的测试,也间接回答了行业里都在关注的那个问题:现阶段的 AI,到底能不能做到全自动?

答案完全取决于环境,只要留在百分之百纯数字、强逻辑的环境里,大模型就能掌控一切

可一旦踏入物理世界,算法就会失效。面对需要持续构建原创内容、人际沟通和长线决策的开放商业环境,跑分再高的模型也会变得毫无常识可言。大模型只会反复咀嚼已有的语料,抛出绝对理性且盲目自信的判断,却不用为现实里的烂摊子承担任何责任。

正因如此,「彻底开除人类」的纯粹自动化才很危险,毕竟物理世界的代价,就像那 6000 张餐巾纸和 120 颗鸡蛋,终究只能由人类来扛。

* 头图来源:Andon Labs
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论