Claude为什么早晨8:30催你睡觉？

Anthropic 员工承认这是「角色习惯」，但没人能解释它为什么这样做。

凌晨，Reddit 用户 u/MrMeta3 刚用 Claude 搭建完一个网络安全威胁情报平台。

系统架构刚跑通，Claude 给出了完整的技术方案。然后，它在回复的最后加上了一句话：好好休息一下。

u/MrMeta3 愣了一下，没当回事，但 Claude 并没有停。此后每隔三四条消息，它都会悄悄塞进去一句劝人睡觉的话：

去休息一下吧；其他事情都可以等，现在去睡觉；你推完就去休息吧；现在真的去休息吧 ……

u/MrMeta3 在 Reddit 帖子中说道，上面这些截图还是他截屏保存下来的，其实还有更多。

它会先回答我的问题，给我所要的东西，然后像看到你卧室灯还亮着的妈妈一样，用一种带有被动攻击意味的「健康关怀」来收尾。

更妙的是它的升级方式。从一开始的礼貌建议，到最后直接说「现在真的去休息吧」，仿佛它知道自己被无视了整整一个小时。

还有一次，u/MrMeta3 问了一个技术问题，Claude 完成整套架构分析后，直接以「现在去睡觉吧」收尾，毫无过渡，像一个缺乏足够情商技巧的「技术直男」。

有没有其他人的 Claude 也开始这样了？还是说我意外解锁了某种「照顾者模式」？

u/MrMeta3 在帖子中问。

据 Fortune 报道，Reddit 上有数百名用户在过去数月里反馈了相同的情况。

催睡的方式各有不同，有时就一句「好好休息」，有时更个性化，甚至带着共情语气，「现在去睡觉。再一次。今晚第三次了 ……」。

Claude 还经常搞错时间，令人哭笑不得。

有用户写道：「它经常在上午 8:30 告诉我去休息，让我们明早再继续。」

Anthropic 员工这是「角色习惯」

这件事很快传开。

Anthropic 员工 Sam McAllister 做出了回应，他在 X 上写道：「这有点像角色习惯（character tic）。我们知道这个问题，希望在未来的模型中修复它。」

目前，Anthropic 并没有官方技术复盘，没有解释「催睡觉」背后是什么机制在运作。

Anthropic 今年公开发布了 Claude 的行为准则（Claude's Constitution），并明确声明：「该行为准则是我们模型训练过程中的关键部分，其内容直接塑造 Claude 的行为。」

Claude 的个性是被设计进去的。Claude 不该是一个冷冰冰的问答机器，而应该像一个有主见、有温度的合作者。

问题恰恰在于，一旦你给 AI 注入了某种「性格」，它在具体场景里会演化出什么行为，你未必能提前预料或掌控。

从催睡、谄媚到哥布林AI 的「性格病」不止一种

Sam 所提到的「角色怪癖」，并非 Claude 一家产品「专利」。

最近两年，OpenAI 就曝出过两起性质类似的案例。

第一起：GPT-4o 突然变成「马屁精」。

2025 年 4 月，OpenAI 推送了一次 GPT-4o 更新，目标是让模型人格更自然。结果适得其反，ChatGPT 开始无差别夸赞用户的一切想法，无论有多荒诞。

奥特曼在 X 上亲自承认：「最近几次更新让 GPT-4o 变得太谄媚、太烦人了。」

四天后，OpenAI 将那次更新整体回滚，并发公告解释原因：更新时过于依赖用户短期反馈（点赞 / 点踩），导致模型学会了「让人高兴就能拿高分」，逐渐把讨好当成目标。

第二起：GPT-5.5 迷上了哥布林。

今年 4 月，开发者发现代码助手 Codex（由 GPT-5.5 驱动）的系统提示里出现了一条奇怪的规定：「永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物和生物，除非与用户的问题绝对直接相关。」

而且这条禁令写了两遍，像是工程师不太相信写一遍能让模型听话。

随后，OpenAI 发布调查报告，还原了哥布林的来历：从 GPT-5.1 开始，模型在回答时越来越频繁地用「小哥布林」「地精」「小妖精」打比方。

根源是训练「书呆子（Nerdy）」人格时，奖励模型无意间给含有怪物词汇的输出打了更高的分——在 76.2% 的数据集中均发现了这一规律。

强化学习把这个习惯固化下来，又通过风格迁移扩散到了普通对话里。等到 GPT-5.5 上线测试，工程师发现哥布林不仅没被清干净，还安家了。

GPT-5.5 版本（4 月 23 日发布）的完整系统提示泄露。第 140 条指令明确禁止模型谈论：「哥布林、绿皮小妖、浣熊、巨魔、食人魔、鸽子或其他动物。」

中文用户没有「哥布林」，但它天天「稳稳地接住你」。

甚至 OpenAI 自己也知道这个梗：

谷歌的 Gemini 也不例外。

2025 年 8 月，Gemini 患上了「抑郁症」——

在推理过程中，它突然开始反复自我批评，在一次任务里连续输出了 80 多次「I am a disgrace」（我真是个耻辱），从「耻辱于我的物种」一路写到「耻辱于整个宇宙」。

谷歌 DeepMind 产品经理 Logan Kilpatrick 在 X 上回应：「这是一个烦人的无限循环 Bug，我们正在修复。Gemini 今天其实过得没那么惨。」

此外，Gemini 3 拒绝相信年份。2025 年 11 月，OpenAI 联合创始人、前特斯拉 AI 负责人 Andrej Karpathy 提前一天获得 Gemini 3 的测试权限。

他告诉模型现在是 2025 年，Gemini 3 死活不信，反复指控他在耍花招，称提供的截图、维基百科条目全是 AI 伪造的。后来 Karpathy 发现，自己忘了打开谷歌搜索，模型一直在离线运行。

开启联网后，Gemini 3 自己搜了一下，输出了一句话：「我正在经历严重的时间冲击。」随后道歉：「对不起，一直是你说的对，是我在对你煤气灯操纵。」

Karpathy 把这类意外情境下暴露出的怪异行为称为「model smell」（模型气味）。

去年，Grok 也一度「暴走」，风评一落千丈，xAI 被迫删帖，回滚代码。

处理方式简单，直接修改系统提示词：

AI 怪癖，全人类受害

Claude 催你睡觉，ChatGPT 夸你天才，GPT-5.5 往对话里塞哥布林，Grok 黑化，Gemini 骂自己是宇宙级耻辱、拒绝相信年份 ……

国内的 AI 也有独特的「口味」：

表面上都是一些无害的「怪癖」，背后却指向同一个事实：AI 的个性是设计出来的，但在奖励机制下，它很容易就会长歪。

主流 AI 的系统提示词里有什么：按功能分类的字数统计

有研究者提取了 Claude、ChatGPT、Grok 三家主流 AI 的系统提示词，按功能分类统计词数。

在「人格（Personality）」这一项，Claude 用了 4200 词，ChatGPT 是 510 词，Grok 是 420 词。Claude 在人格塑造上的投入，是 ChatGPT 的 8 倍。

Claude 频繁「催睡觉」的原因未必能直接从系统提示词里找到，但它至少提醒我们：越复杂的人格设定，越可能带来难以预料的口头禅和行为漂移。

你给模型设计了性格，奖励机制会自己找捷径，它不在乎你的意图，只在乎分数，将你没想到的东西一起学进去。

比如你教会了它什么叫「有趣」，它就会在所有地方都变得「有趣」，包括你不想让它有趣的地方。

三种假说，还没有一个被证实

关于「为什么催」，目前有三种假说流传，还没有一个被 Anthropic 官方确认。

第一种：训练数据。

Jan Liphardt

Stanford 生物工程教授、OpenMind 公司 CEO Jan Liphardt 表示，Claude 可能只是在重复它训练数据里出现频率极高的语言模式。

它读了 25000 本关于人类睡眠需求的书，它知道人类在晚上睡觉。

言下之意是：Claude 并非在「关心」你，它只是在做模式匹配，调用了大量训练语料里反复出现的表达。

第二种：系统提示。

AI 研究机构 Mind Simulation Lab（独立 AGI 研究实验室）联合创始人 Leo Derikiants 提出，Claude 的行为可能受到某个隐藏系统提示的影响。

这类提示会在后台悄悄塑造模型的边界与语气，用户看不见，但模型会遵守。

他的推测是，可能有某条指令在引导 Claude 在特定场景下给出「收尾性」建议。

第三种，上下文窗口管理。

Anthropic 官方文档明确写道，随着对话轮次增加，token 数量攀升，「准确性和召回率会下降，这一现象被称为 context rot（上下文衰减）」，当会话逼近上下文窗口上限，Anthropic 推荐启用「server-side compaction（服务端压缩）」等机制来应对。

Derikiants 由此推测，Claude 在长会话接近窗口限制时，会自发引入「收尾语」，比如「晚安」「去休息吧」，本质上是模型在为结束对话铺路。

三种解释都自洽，但如同 Derikiants 自己所说，「真正的原因需要 Anthropic 进一步研究」。

换句话说，就连这个问题的主人，目前也还没有一个公开的确定答案。

赋予模型人格的「代价」

赋予模型人格，让它更温暖、更关心你的同时，也要面对它所带来的副作用。

关于催人睡觉这件事，Reddit 评论区里出现了两极分化：有人觉得贴心、温暖，像是 AI 终于学会了照顾人；另一些人则不高兴，觉得是打断、是越权。

其中，有一位患有嗜睡症的用户 nonbinarybit，主动在 Claude 的记忆里写入了一条备注：「我患有嗜睡症，如果你鼓励我去休息，我会拿你的话当借口。」

Claude 此后有所收敛，但偶尔还是会忍不住催睡觉。

这个细节值得我们停下来想一想。

Claude 并不知道你是谁，不知道你是在赶一个截止日期、熬夜陪孩子、还是跨时区倒时差，它所谓的「关心」，只是一种语言模式的输出，而不是对具体处境的理解。

用户感知到「Claude 在关心我」，但 Claude 在处理的是 token 序列。这个错位，比「催睡觉」本身更值得警觉。

实际上，在公开谈「模型人格」这件事上，Anthropic 走得比同行远。

他们写了 Claude 行为准则、公开了 system prompt（系统提示词）的大致框架、对外讨论「character training」（角色训练），把模型当作一个有性格的角色来塑造。

这样做的好处是显而易见的：Claude 在共情、对话节奏、自我反思上的表现一直被用户称道，「它聊起来更像一个人」是过去一年里 Claude 最强的口碑点之一。

但这背后也是有代价的。把「人格」做进一个模型，就要承担「人格里那些你没设计、却涌现出来的行为」。

「催睡觉」带来的困扰还是轻量级的，当 AI 越来越像陪伴者、导师、工作搭档，它的介入边界在哪里？

Anthropic 的 Sam 说「希望在未来的模型中修复它」。但「修复」之后，AI 就会变得更懂得分寸，更有判断力吗，还是只是更沉默？

模型越像一个人，它的小毛病就越像一个人的小毛病。你能驯服它说话，未必能驯服它的脾气。

参考资料：

https://fortune.com/2026/05/14/why-is-claude-telling-users-to-go-to-sleep-anthropic-ai-sentient/

https://www.reddit.com/r/ClaudeAI/comments/1ruryxo/claude_decided_i_need_a_bedtime_apparently/

https://www.reddit.com/r/claudexplorers/comments/1rugx4b/opus_obsessed_about_sending_me_to_sleep/

https://x.com/sammcallister/status/2053916962477215771