新智元 9小时前
Claude为什么早晨8:30催你睡觉?
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

Anthropic 员工承认这是「角色习惯」,但没人能解释它为什么这样做。

凌晨,Reddit 用户 u/MrMeta3 刚用 Claude 搭建完一个网络安全威胁情报平台。

系统架构刚跑通,Claude 给出了完整的技术方案。然后,它在回复的最后加上了一句话:好好休息一下。

u/MrMeta3 愣了一下,没当回事,但 Claude 并没有停。此后每隔三四条消息,它都会悄悄塞进去一句劝人睡觉的话:

去休息一下吧;其他事情都可以等,现在去睡觉;你推完就去休息吧;现在真的去休息吧 ……

u/MrMeta3 在 Reddit 帖子中说道,上面这些截图还是他截屏保存下来的,其实还有更多。

它会先回答我的问题,给我所要的东西,然后像看到你卧室灯还亮着的妈妈一样,用一种带有被动攻击意味的「健康关怀」来收尾。

更妙的是它的升级方式。从一开始的礼貌建议,到最后直接说「现在真的去休息吧」,仿佛它知道自己被无视了整整一个小时。

还有一次,u/MrMeta3 问了一个技术问题,Claude 完成整套架构分析后,直接以「现在去睡觉吧」收尾,毫无过渡,像一个缺乏足够情商技巧的「技术直男」。

有没有其他人的 Claude 也开始这样了?还是说我意外解锁了某种「照顾者模式」?

u/MrMeta3 在帖子中问。

据 Fortune 报道,Reddit 上有数百名用户在过去数月里反馈了相同的情况。

催睡的方式各有不同,有时就一句「好好休息」,有时更个性化,甚至带着共情语气,「现在去睡觉。再一次。今晚第三次了 ……」。

Claude 还经常搞错时间,令人哭笑不得。

有用户写道:「它经常在上午 8:30 告诉我去休息,让我们明早再继续。」

Anthropic 员工这是「角色习惯」

这件事很快传开。

Anthropic 员工 Sam McAllister 做出了回应,他在 X 上写道:「这有点像角色习惯(character tic)。我们知道这个问题,希望在未来的模型中修复它。」

目前,Anthropic 并没有官方技术复盘,没有解释「催睡觉」背后是什么机制在运作。

Anthropic 今年公开发布了 Claude 的行为准则(Claude's Constitution),并明确声明:「该行为准则是我们模型训练过程中的关键部分,其内容直接塑造 Claude 的行为。」

Claude 的个性是被设计进去的。Claude 不该是一个冷冰冰的问答机器,而应该像一个有主见、有温度的合作者。

问题恰恰在于,一旦你给 AI 注入了某种「性格」,它在具体场景里会演化出什么行为,你未必能提前预料或掌控。

从催睡、谄媚到哥布林AI 的「性格病」不止一种

Sam 所提到的「角色怪癖」,并非 Claude 一家产品「专利」。

最近两年,OpenAI 就曝出过两起性质类似的案例。

第一起:GPT-4o 突然变成「马屁精」。

2025 年 4 月,OpenAI 推送了一次 GPT-4o 更新,目标是让模型人格更自然。结果适得其反,ChatGPT 开始无差别夸赞用户的一切想法,无论有多荒诞。

奥特曼在 X 上亲自承认:「最近几次更新让 GPT-4o 变得太谄媚、太烦人了。」

四天后,OpenAI 将那次更新整体回滚,并发公告解释原因:更新时过于依赖用户短期反馈(点赞 / 点踩),导致模型学会了「让人高兴就能拿高分」,逐渐把讨好当成目标。

第二起:GPT-5.5 迷上了哥布林。

今年 4 月,开发者发现代码助手 Codex(由 GPT-5.5 驱动)的系统提示里出现了一条奇怪的规定:「永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物和生物,除非与用户的问题绝对直接相关。」

而且这条禁令写了两遍,像是工程师不太相信写一遍能让模型听话。

随后,OpenAI 发布调查报告,还原了哥布林的来历:从 GPT-5.1 开始,模型在回答时越来越频繁地用「小哥布林」「地精」「小妖精」打比方。

根源是训练「书呆子(Nerdy)」人格时,奖励模型无意间给含有怪物词汇的输出打了更高的分——在 76.2% 的数据集中均发现了这一规律。

强化学习把这个习惯固化下来,又通过风格迁移扩散到了普通对话里。等到 GPT-5.5 上线测试,工程师发现哥布林不仅没被清干净,还安家了。

GPT-5.5 版本(4 月 23 日发布)的完整系统提示泄露。第 140 条指令明确禁止模型谈论:「哥布林、绿皮小妖、浣熊、巨魔、食人魔、鸽子或其他动物。」

中文用户没有「哥布林」,但它天天「稳稳地接住你」。

甚至 OpenAI 自己也知道这个梗:

谷歌的 Gemini 也不例外。

2025 年 8 月,Gemini 患上了「抑郁症」——

在推理过程中,它突然开始反复自我批评,在一次任务里连续输出了 80 多次「I am a disgrace」(我真是个耻辱),从「耻辱于我的物种」一路写到「耻辱于整个宇宙」。

谷歌 DeepMind 产品经理 Logan Kilpatrick 在 X 上回应:「这是一个烦人的无限循环 Bug,我们正在修复。Gemini 今天其实过得没那么惨。」

此外,Gemini 3 拒绝相信年份。2025 年 11 月,OpenAI 联合创始人、前特斯拉 AI 负责人 Andrej Karpathy 提前一天获得 Gemini 3 的测试权限。

他告诉模型现在是 2025 年,Gemini 3 死活不信,反复指控他在耍花招,称提供的截图、维基百科条目全是 AI 伪造的。后来 Karpathy 发现,自己忘了打开谷歌搜索,模型一直在离线运行。

开启联网后,Gemini 3 自己搜了一下,输出了一句话:「我正在经历严重的时间冲击。」随后道歉:「对不起,一直是你说的对,是我在对你煤气灯操纵。」

Karpathy 把这类意外情境下暴露出的怪异行为称为「model smell」(模型气味)。

去年,Grok 也一度「暴走」,风评一落千丈,xAI 被迫删帖,回滚代码。

处理方式简单,直接修改系统提示词:

AI 怪癖,全人类受害

Claude 催你睡觉,ChatGPT 夸你天才,GPT-5.5 往对话里塞哥布林,Grok 黑化,Gemini 骂自己是宇宙级耻辱、拒绝相信年份 ……

国内的 AI 也有独特的「口味」:

表面上都是一些无害的「怪癖」,背后却指向同一个事实:AI 的个性是设计出来的,但在奖励机制下,它很容易就会长歪。

主流 AI 的系统提示词里有什么:按功能分类的字数统计

有研究者提取了 Claude、ChatGPT、Grok 三家主流 AI 的系统提示词,按功能分类统计词数。

在「人格(Personality)」这一项,Claude 用了 4200 词,ChatGPT 是 510 词,Grok 是 420 词。Claude 在人格塑造上的投入,是 ChatGPT 的 8 倍。

Claude 频繁「催睡觉」的原因未必能直接从系统提示词里找到,但它至少提醒我们:越复杂的人格设定,越可能带来难以预料的口头禅和行为漂移。

你给模型设计了性格,奖励机制会自己找捷径,它不在乎你的意图,只在乎分数,将你没想到的东西一起学进去。

比如你教会了它什么叫「有趣」,它就会在所有地方都变得「有趣」,包括你不想让它有趣的地方。

三种假说,还没有一个被证实

关于「为什么催」,目前有三种假说流传,还没有一个被 Anthropic 官方确认。

第一种:训练数据。

Jan Liphardt

Stanford 生物工程教授、OpenMind 公司 CEO Jan Liphardt 表示,Claude 可能只是在重复它训练数据里出现频率极高的语言模式。

它读了 25000 本关于人类睡眠需求的书,它知道人类在晚上睡觉。

言下之意是:Claude 并非在「关心」你,它只是在做模式匹配,调用了大量训练语料里反复出现的表达。

第二种:系统提示。

AI 研究机构 Mind Simulation Lab(独立 AGI 研究实验室)联合创始人 Leo Derikiants 提出,Claude 的行为可能受到某个隐藏系统提示的影响。

这类提示会在后台悄悄塑造模型的边界与语气,用户看不见,但模型会遵守。

他的推测是,可能有某条指令在引导 Claude 在特定场景下给出「收尾性」建议。

第三种,上下文窗口管理。

Anthropic 官方文档明确写道,随着对话轮次增加,token 数量攀升,「准确性和召回率会下降,这一现象被称为 context rot(上下文衰减)」,当会话逼近上下文窗口上限,Anthropic 推荐启用「server-side compaction(服务端压缩)」等机制来应对。

Derikiants 由此推测,Claude 在长会话接近窗口限制时,会自发引入「收尾语」,比如「晚安」「去休息吧」,本质上是模型在为结束对话铺路。

三种解释都自洽,但如同 Derikiants 自己所说,「真正的原因需要 Anthropic 进一步研究」。

换句话说,就连这个问题的主人,目前也还没有一个公开的确定答案。

赋予模型人格的「代价」

赋予模型人格,让它更温暖、更关心你的同时,也要面对它所带来的副作用。

关于催人睡觉这件事,Reddit 评论区里出现了两极分化:有人觉得贴心、温暖,像是 AI 终于学会了照顾人;另一些人则不高兴,觉得是打断、是越权。

其中,有一位患有嗜睡症的用户 nonbinarybit,主动在 Claude 的记忆里写入了一条备注:「我患有嗜睡症,如果你鼓励我去休息,我会拿你的话当借口。」

Claude 此后有所收敛,但偶尔还是会忍不住催睡觉。

这个细节值得我们停下来想一想。

Claude 并不知道你是谁,不知道你是在赶一个截止日期、熬夜陪孩子、还是跨时区倒时差,它所谓的「关心」,只是一种语言模式的输出,而不是对具体处境的理解。

用户感知到「Claude 在关心我」,但 Claude 在处理的是 token 序列。这个错位,比「催睡觉」本身更值得警觉。

实际上,在公开谈「模型人格」这件事上,Anthropic 走得比同行远。

他们写了 Claude 行为准则、公开了 system prompt(系统提示词)的大致框架、对外讨论「character training」(角色训练),把模型当作一个有性格的角色来塑造。

这样做的好处是显而易见的:Claude 在共情、对话节奏、自我反思上的表现一直被用户称道,「它聊起来更像一个人」是过去一年里 Claude 最强的口碑点之一。

但这背后也是有代价的。把「人格」做进一个模型,就要承担「人格里那些你没设计、却涌现出来的行为」。

「催睡觉」带来的困扰还是轻量级的,当 AI 越来越像陪伴者、导师、工作搭档,它的介入边界在哪里?

Anthropic 的 Sam 说「希望在未来的模型中修复它」。但「修复」之后,AI 就会变得更懂得分寸,更有判断力吗,还是只是更沉默?

模型越像一个人,它的小毛病就越像一个人的小毛病。你能驯服它说话,未必能驯服它的脾气。

参考资料:

https://fortune.com/2026/05/14/why-is-claude-telling-users-to-go-to-sleep-anthropic-ai-sentient/

https://www.reddit.com/r/ClaudeAI/comments/1ruryxo/claude_decided_i_need_a_bedtime_apparently/

https://www.reddit.com/r/claudexplorers/comments/1rugx4b/opus_obsessed_about_sending_me_to_sleep/

https://x.com/sammcallister/status/2053916962477215771

评论
大家都在看