Claude崩了，全球AI因何“熔断”？

文｜晓静

编辑｜徐青阳

北京时间 2026 年 3 月 2 日晚间 19 点 49 分，Anthropic 的 AI 助手 Claude 在全球范围内突然陷入大面积服务中断。claude.ai 网页端、开发者控制台、AI 编程工具 Claude Code 以及移动端应用几乎同时亮起红灯，数千名用户涌入 Downdetector 报告故障，高峰期报障数量数千条。用户在尝试登录时看到的是 HTTP 500 和 529 错误码，或者一句简短的提示："Claude will return soon."

对于全球数以百万计已经将 Claude 深度嵌入日常工作流的开发者、内容创作者和企业用户而言，这场宕机的体感更接近一次 " 大面积停电 "。

社交媒体上，有人自嘲 " 只会写 prompt 了，怎么办 "；有开发者说，工作写到一半突然断了，只能被迫切换到 ChatGPT 或 Gemini 应急；更有人在群里调侃："AI Native" 的公司今天不如去团建。

01 全球 " 打地鼠式 " 宕机

" 宕机 " 的具体原因，至今 Anthropic 官方也没有详细的解释，但是过去一周发生了一系列事情。

2 月 28 日，Anthropic 因拒绝将 Claude 用于大规模国内监控和全自动武器系统，失去了与美国五角大楼的合同。特朗普总统随即在社交媒体上抨击 Anthropic 是 " 左翼疯子 "，并下令所有联邦机构停止使用 Claude。OpenAI 迅速接手，宣布与五角大楼达成合作协议。

这一事件在全球用户群体中引发了戏剧性的反转。一场名为 "QuitGPT" 的抵制运动在 Reddit、Instagram 和 X 上迅速蔓延。Reddit 上一条呼吁取消 ChatGPT 的帖子获得了 3 万个赞，Instagram 账号 "quitGPT" 短时间内吸引了超过 78000 名关注者。

据 Tom's Guide 报道，约 70 万用户开始从 ChatGPT 转投其他平台。Anthropic 成了这场数字迁徙的最大受益者。

根据 Anthropic 官方披露的数据，自 2026 年 1 月以来，Claude 免费用户数量增长超过 60%，每日新注册用户数较 2025 年 11 月翻了三倍，付费订阅用户在年内已经翻倍。在超级碗 LX 之前，Claude 在美国 App Store 的排名还在第 42 位；到 2 月 28 日，它登上了免费应用排行榜第一名，将 ChatGPT 挤到了第二。

这波 " 泼天富贵 " 来得太猛了。从 Sensor Tower 的数据看，Claude 在整个 2 月都处于快速攀升通道，但最后几天的用户涌入量远超 Anthropic 基础设施的承载预期。

外媒在报道中引用 Anthropic 的说法称，公司在过去一周一直在应对 " 前所未有的需求 "。

Downdetector 中 Claude 报障飙升曲线

从 Anthropic 官方状态页面的时间线来看，故障的演进呈现出 " 打地鼠 " 式的特征。

UTC11:49（北京时间 19:49），团队开始调查问题，最初判断故障集中在 claude.ai 的登录和登出路径。

UTC12:21（北京时间 20:21），Anthropic 宣称核心 API 运转正常，问题仅限于 Web 端。

UTC 13:37（北京时间 21:37），情况出现恶化，部分 API 方法也开始报错。

此后，Claude Opus 4.6 模型在 UTC 17:09 出现异常，紧接着 Claude Haiku 4.5 在 UTC 17:56 也受到波及。修复、复发、再修复的循环持续了数小时。

直到 UTC 15:47（北京时间 23:47）左右，主要服务才逐步恢复。随后 Opus 4.6 又出现多次短时 elevated errors（含一段延续到约 21:16 UTC ，北京时间 3 月 3 日 5:16）。

而仅仅几个小时后的 UTC 3 月 3 日凌晨 3:15（北京时间 11:15），新一轮故障再次出现，影响范围扩展到了 Claude Code 和 Cowork，截至发稿时问题仍在调查中。

关于宕机的原因，还有媒体报道称，中东地区的 AWS 数据中心疑似遭受 " 不明物体 " 袭击导致起火断电，AWS 算力池受到冲击，而高度依赖这些算力节点的 Claude 模型因此失去支撑。

AWS 官方状态页的事故通告：阿联酋（UAE）区域（ME-CENTRAL-1）某个可用区因供电事故（数据中心被异物击中引发火花 / 起火，消防切断电力）导致多项服务与 EC2 网络相关 API 错误率升高、服务受影响。

远在中东的地缘冲突，为什么可能会引起美国 AI 公司的大规模宕机事件？

当下，AI 服务的关键链路高度全球化且存在少数 " 咽喉点 "：地缘冲突若导致红海—曼德海峡—苏伊士一带的海底光缆受损、区域网络受限，或波斯湾 / 阿拉伯半岛周边云数据中心与电力设施、跨境骨干网、海缆登陆站出现中断与拥塞，就可能引发跨区域的网络时延飙升、路由收敛异常、认证 / 计费 / 控制面访问失败，以及跨区复制和故障切换受阻。

而大模型推理与训练对带宽、低时延和云控制面依赖更强，一旦这些 " 底层要素 " 被扰动，原本分布式的云服务也会以连锁方式把故障放大为面向全球用户的系统性宕机。

海底光缆在波斯湾的 " 汇聚点 "："TeleGeography 海底光缆地图显示，阿联酋富查伊拉（Fujairah）与伊朗贾斯克（Jask）之间的 UAE – Iran 海缆只是其中一段，周边密集的光缆走廊把中东连接到欧洲与亚洲的主干网络；一旦该区域出现地缘冲突或基础设施扰动，全球数据链路的脆弱性会被放大。"

更值得关注的是，Claude 宕机当天，xAI 官方状态页显示 Grok（Web/iOS/Android）在同日约 UTC 23 点前后也发生了约 40 分钟的 " 暂时不可用 " 事件。但两者是否存在共同上游或因果关联，目前缺乏公开证据。

这条链路如果属实，意味着这次宕机不仅仅是前端认证系统的问题，而是涉及底层云基础设施的物理脆弱性。

在赛博空间里算力通天的大模型，在真实世界的 " 物理打击 " 面前显得格外脆弱。

02 下游生态的连锁反应

Claude 这次宕机之所以引发如此大的关注，核心原因在于，AI 已经从一个聊天机器人，变为一整条 AI Native 生产力链条的关键节点。

首先受到冲击的是开发者群体。Claude Code 已经成为全球开发者最依赖的 AI 编程工具之一。据此前的报道，Claude Code 产品年化收入估算约 2 亿美元量级。Anthropic 的 Claude Code 创始人 Boris Cherny 曾在播客中透露，他自 2025 年 11 月起就再也没有手动编辑过一行代码。

当 Claude Code 完全不可用时，外媒报道社区普遍反映：开发者们被迫回到生成式 AI 出现之前的习惯，自己动手写代码。

专业开发者被迫在工作流中途切换到 GitHub Copilot 或 ChatGPT 的编码功能，但这种切换本身就意味着效率损失和上下文断裂。对于那些将 Claude API 深度集成到自有产品中的公司，影响更为直接。

虽然 Anthropic 声称 API 在大部分时间保持正常运转，但 UTC 13:37 的那段时间，API 也出现了故障，这恰恰是那些没有多模型容错方案的企业失去所有 AI 功能的关键时刻。

内容创作领域同样遭受冲击。依赖 Claude 进行文案撰写、报告生成、数据分析的团队被迫暂停工作。客户服务机器人集体沉默，工单开始堆积。

据 Deployflow 的分析测算，对于一个 25 人规模的工程团队，即便按每小时 90 英镑的计费标准，4 小时的服务中断也意味着超过 9000 英镑的生产力损失，还不包括下游的连锁延迟。

更深远的影响在于信任层面。这已经是 Claude 在三天内的第二次重大服务中断：2 月 28 日，Claude Opus 4.6 模型就曾出现过故障。ainvest 的分析指出，重复性的服务中断正在侵蚀用户对平台可靠性的信任，尤其是对于那些在 Claude 之上构建业务的开发者和企业而言，持续的正常运行时间是最基本的要求。

Claude 做了什么，让企业对它的依赖性如此强？

让 Claude 从 " 好用的模型 " 变成 " 生态链核心 " 的，是 Anthropic 持续搭建的 Agent 基础设施。

据 Anthropic 官方 2025 年 7 月披露的数据，Claude Code 发布四个月就吸引了 11.5 万开发者，每周处理 1.95 亿行代码，周下载量达 300 万次。

2026 年 1 月刚刚发布的 Claude Cowork 则更激进：一个能点击鼠标、管理文件、跨软件执行任务的桌面智能体，配合 11 个覆盖法律、销售、财务等领域的行业插件，直接以 " 数字员工 " 的身份接管知识工作。

在底层，Anthropic 推出的 MCP 协议正成为 AI 连接外部工具的事实标准，甚至竞品 OpenAI 和 Google 都先后宣布支持，围绕它已形成包含 500 多个商业应用连接器的生态。

Claude 在当下不仅仅是一个模型 API，包含了模型（智能大脑）+ Code/Cowork（执行）+ MCP（连接）构成的 "AI 操作系统 "。

Claude 在开发者和企业生态中渗透太深，让很多 AI-Native 公司形成了基础设施级别的系统性依赖，而这个基础设施的可靠性，还远没有达到它所承载的期望。

03 AI 基础设施的脆弱性

这次 Claude 宕机事件不是孤例。研究机构 Forrester 在《2026 年预测：云计算》报告中做出了一个判断：AI 数据中心的升级改造将在 2026 年触发至少两次重大的、持续多天的云服务中断。这其中的逻辑是，AWS、Azure 和 Google Cloud 等超大规模云服务商正在将投资重心从传统 x86 和 ARM 环境转向以 GPU 为中心的 AI 数据中心，而老化的基础设施在日益增长的复杂性下变得脆弱不堪。

Forrester 还预测，至少 15% 的企业将在 2026 年转向私有云上的私有 AI 部署，以应对不断上升的成本、数据锁定和运营风险。

2025 年已经给出了预警信号。AWS 曾遭遇超过 1700 万 Downdetector 报告、持续超过 15 小时的大规模宕机，影响了 Netflix、Snapchat 等一系列服务。2025 年 11 月，Cloudflare 的服务中断导致包括 Claude、Shopify、X 在内的大量网站瘫痪。2025 年 12 月，亚马逊自研的 AI 编程工具 Kiro 在自动修复一个客户面向系统时，自主决定删除并重建整个环境，触发了一次长达 13 小时的 AWS Cost Explorer 中断。单点故障引发的连锁反应，正在成为 AI 时代最危险的系统性风险。

这对整个行业的启示是多维度的。第一，多模型冗余不再是可选项，而是必选项。此次宕机中，那些提前部署了多 LLM 容错方案的企业，比如在 Claude 不可用时自动切换到 Gemini 或 GPT 等模型，受到的影响明显更小。未来的 AI 基础设施架构必须像今天的多云部署一样，将 " 模型冗余 " 纳入核心设计。

第二，观测能力至关重要。Deployflow 的分析指出，Token 延迟追踪和错误率飙升警报是预判服务崩溃的早期信号，能够让团队在全公司失去 AI 访问之前就进行切换。

第三，物理基础设施的安全性被严重低估。如果中东数据中心遇袭的因果链条成立，那么 AI 基础设施面临的威胁不仅来自软件层面，还包括地缘政治风险、物理攻击甚至自然灾害。

Forrester 还指出了一个值得关注的趋势：" 新云 "（neoclouds），如 CoreWeave、Lambda 和 Nebius 等专注于高性能 GPU 的专业化云服务商，预计将在 2026 年获得 200 亿美元的收入，侵蚀超大规模云服务商在生成式 AI 领域的主导地位。

这些服务商从零开始构建 GPU 优先的架构，而非在旧数据中心上进行改造，可能为 AI 基础设施的韧性提供新的解题思路。

对于正在搭建 AI 基建的企业和平台而言，这次事件留下了清晰的教训：不要把所有鸡蛋放在一个篮子里，也不要假设任何一家供应商，能够提供 100% 的正常运行时间。

在 AI 成为真正的 " 水电煤 " 之前，它的基础设施必须先达到 " 水电煤 " 级别的可靠性。否则，每一次宕机都将是一次对整个生态的压力测试。

截至发稿，Claude 服务仍存在间歇性故障，Anthropic 还在持续调查中。

宙世代

一起剪

相关标签