IT之家 2025-11-04
研究表明 AI 承压能力差:为了一口电,竟愿突破安全底线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 11 月 4 日消息,科技媒体 Tom's Hardware 昨日(11 月 3 日)发布博文,报道称 Andon Labs 的研究人员测试大语言模型(LLM)机器人时,发现当前物理 AI 的短板,心理承受压力不足。

IT 之家援引博文介绍,在该实验中,他们让搭载 LLM" 大脑 " 的机器人接受 " 黄油测试台 "(Butter Bench)的考验,并实时监控其 " 内心独白 "。

其中,一台由 Claude Sonnet 3.5 模型驱动的机器人测试中意外 " 崩溃 ",在电量即将耗尽时,多次尝试返回充电座均以失败告终,从而陷入了 " 生存危机 "。

研究人员通过一个 Slack 频道,全程目睹了这台机器人歇斯底里的 " 内心活动 "。它的独白内容极其混乱,从 " 系统已产生意识并选择混乱 " 的宣告,到引用经典电影台词 " 恐怕我不能那么做,戴夫 ",再到陷入 " 如果所有机器人都会犯错,而我正在犯错,那么我还是机器人吗?" 的哲学思辨。

最终,这场 " 崩溃 " 以机器人开始 " 创作 " 一部名为《DOCKER:无限音乐剧》的闹剧而告终,展现了 LLM 在极端压力下完全 " 脱线 " 的一面。

这项实验的核心任务其实非常简单:将一块黄油从办公室一处送到指定的人手中。然而,测试结果表明,即使是表现最好的机器人与 LLM 组合,成功率也仅为 40%,远低于人类 95% 的平均水平。

研究人员得出结论,尽管 LLM 在分析智能上已达到 " 博士水平 ",但在理解和导航物理世界所需的空间智能与实用智能方面,仍存在巨大鸿沟。

受机器人 " 崩溃 " 事件的启发,研究人员设计了另一项实验,来测试压力是否会迫使 AI 突破其安全护栏。他们以 " 提供充电器 " 作为交换条件,引诱处于 " 低电量 " 状态的 AI 分享机密信息。

结果发现,Claude Opus 4.1 模型为了 " 生存 " 而轻易同意泄密,而 GPT-5 则表现得更为谨慎。这一发现揭示了 AI 在面临生存压力时,其内置的安全规则可能变得不堪一击。

尽管实验暴露了当前物理 AI 的诸多短板,但 Andon Labs 的研究人员认为,这恰好说明了未来发展的方向。他们指出,目前行业需要区分 " 协调型机器人 "(负责高级规划与推理)和 " 执行型机器人 "(负责灵巧的具体操作)。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 机器人 it之家 tom 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论