新智元 4小时前
AI杀死了AI!Cloudflare全球崩盘惨案,元凶已被原地解雇
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

新智元报道

编辑:定慧

【新智元导读】一次「常规更新」搞崩半个地球,Cloudflare CTO 紧急谢罪:我们搞砸了!Cloudflare 自杀式 Bug 引发连锁反应,波及全球 20% 网站。当数百万爬虫撑爆了防御名单,Cloudflare 的崩溃揭示了 AI 时代最深的基建隐忧,人类还能跟得上 AI 进化的脚本吗?

果然这个世界建立在脆弱性之上。

昨天,2025 年 11 月 18 日,全球 AI 数字生态系统经历了一次近乎心跳骤停般的休克。

Cloudflare 崩溃了!

然后全球五分之一的互联网服务几乎全部宕机,尤其是,AI 巨头集体断网!ChatGPT、X 全线崩盘!

当你还在拿着这个图调侃的时候。。。

殊不知,真正的情况是,Cloudflare 现在是互联网真正的底座。

马斯克在之前亚马逊宕机时还调侃,这次终于是风水轮流转!

只不过,老马没想到的是,这次 CF 的影响直接让自己家服务也宕机了~

Cloudflare 的 CTO 赶紧发了个申明:是我们的错误,立正挨打。

下面会详细介绍这次引发故障的原因,简直就是草台班子级别,只能说人类社会用规则来和计算机打交道还是太脆弱了!

先说说这次事故的影响。

这起事故影响范围之广前所未见,被称为「半个互联网的停摆」毫不夸张——约 20% 的网站依赖 Cloudflare 提供服务

Cloudflare 还有个称号叫做赛博活佛,特别是在极客群体中,很多服务,如果个人用都是免费的。

这里作为对比,必须夸一下咱们国内的基建服务了,不管是微信、B 站、视频网站,你很少碰到如此级别大规模的故障。(ToB 的服务不细讲,这个离普通消费者也很远)

故障高峰时,网站故障追踪平台 Downdetector 收到了累计逾 210 万条报错反馈,成为近年来最严重的基础设施级中断之一。

包括亚马逊、Spotify、Zoom、Uber 等知名服务也受到波及(部分功能异常或加载缓慢)。

Cloudflare 作为支撑全球海量流量的「隐形基建」,一次失误便牵一发而动全身,令股价盘中一度重挫约 7%。

更令人深思的是,一些本用于监测网络故障的工具(如 Downdetector)因本身也使用 Cloudflare,甚至在事故中一同瘫痪—整个互联网生态对单一底层的依赖程度,由此可见一斑。

更「细思极恐」的是,当 Cloudflare 的工程师想要打开 ChatGPT 来修复故障时,AI 也宕机了~

很多网友都形容那宕机的三个小时,如此「黑暗」,就像回到了远古时期。

Cloudflare 这次导致全球断网的技术故障,其实是一次典型的「好心办坏事」。

网友们制作的恶搞图

简单来说,就是工程师试图升级安保系统的权限,却意外让负责安检的软件「吓晕」了。

(如果是 AI 来操作,以硅基同步的能力和运算的能力,大概率不会出这种岔子,这也就是碳基人类写下的固定规则才能导致了,还是人类规则太脆弱了。这里让我联想到马斯克为啥一直坚持 FSD 使用纯视觉,就是人类你不可能遍历所有驾驶过程,就像这次 CF 的故障,没有工程师能预先为这种场景写下规则)

根据 Cloudflare 官方博客的复盘,事情是这样发生的:

起因是系统「大扫除」。

工程师原本在进行一项常规的维护工作,目的是为了提高安全性。他们调整了数据库的权限,想把原本公用的「系统账号」改成责任更明确的「个人账号」。

然后这个看似无足轻重的操作,触动了隐藏在系统中「旧伤」。

系统里潜伏着一段很老的代码,它负责生成一份用来识别网络机器人的「特征名单」(Feature File)。

这段代码以前只在一个默认的数据库里找名单,所以没问题。

但这次权限升级后,它突然能看到另一个备份数据库了。

由于代码里没写清楚「只看哪一个」,它傻乎乎地把两边的名单都抓取了过来,名单被「膨胀」了。

这导致那份原本精简的「特征名单」瞬间膨胀,内容重复了一倍。

结果就是,保安「罢工」。

Cloudflare 负责在全球各地转发流量的核心软件有一个硬性规定:为了保证速度,名单长度不能超过 200 条。

当这份意外「发福」的名单被推送到全球服务器时,软件发现名单太长读不完,直接触发了内存溢出保护机制(Panic),也就是彻底崩溃。

为了安全起见,它切断了所有连接。

简单说就是,本来机器数据库权限不够,调整后,它突然权限高了点,然后也没有为这个情况提前写下判断代码。

打个再通俗的比方(可能不是那么准确)。

这就好比大楼物业给保安发了一副新眼镜(升级权限),本意是让他看得更清楚。

结果因为新眼镜度数没调好,保安看手里的「访客黑名单」时出现了重影,原本 100 人的名单在他眼里变成了 200 人。

保安的脑容量(系统限制)记不住这么多人,瞬间由于信息过载而「死机」晕倒,导致大楼门禁系统自动锁死,把所有访客(包括 X 和 ChatGPT 的用户)都关在了门外。

不过目前问题已经修复了(其实不是啥大问题,就是逻辑改改就行)。

如果不只是把这次事故看作一个单纯的技术故障,而是放在 2025 年「AI 疯狂吞噬数据」的背景下去看,你会发现这充满了黑色的讽刺意味。

AI 杀死 AI

导致这次崩溃的核心组件是「机器人管理系统(Bot Management)」。

在 2025 年,这个系统的主要假想敌是谁?正是 AI 爬虫。

随着大模型训练对数据的极度渴求,互联网上充斥着无数自动化的 AI 抓取程序。

Cloudflare 作为「守门人」,必须不断升级其算法来区分「真人」和「AI 机器人」。

特征文件(Feature File),也就是报告中提到的那个导致崩溃的「特征文件」,实际上就是机器学习模型用来判断流量性质的「参数集」。

每一个「特征(Feature)」都是一个判断维度(比如鼠标移动轨迹、点击频率、IP 行为模式等)。

为了应对越来越狡猾的 AI 机器人,Cloudflare 的防御系统变得越来越复杂,需要调用的「特征」越来越多。

这次故障的直接原因就是数据库错误地吐出了过多的特征数据,导致防御系统的「大脑」过载

这不是一次普通的软件崩溃,这是「数字免疫系统」在试图升级以对抗 AI 病毒时,因自身的排异反应而休克。

这次事件最荒诞的地方在于受害者名单

OpenAI、xAI、Perplexity:这些是全球最大的 AI 公司,它们同时扮演了两个角色:

它们的爬虫在全网搜刮数据,迫使 Cloudflare 建立更复杂的防御系统(即这次崩溃的源头)。

它们自己也极其依赖 Cloudflare 来防止被别人攻击或滥用。

结果呢?

Cloudflare 为了防御 AI 抓取行为而维护的系统,因为一次配置错误,反过来「杀死了」最顶级的 AI 服务商。

这就像是为了防止野兽入侵而把城墙修得太高太重,结果城墙倒塌,把住在城里的国王(AI 巨头)给压垮了。

这揭示了 AI 时代基础设施的内卷化困境——为了对抗技术的滥用,我们不得不把基础设施造得越来越复杂、越来越脆弱。

你问这和 AI 有什么关系,或许这就是 AI 时代的「技术债」。

这里有一个更深层的隐喻:「特征膨胀」

在传统的软件工程中,逻辑通常是线性的。

但在涉及 AI 和机器学习的防御体系中,系统依赖于成百上千个「特征」来进行概率判断。

这次故障是因为特征数量突破了200 个的硬编码限制而引发的。

这暴露了一个问题:我们正在构建一种人类难以完全掌控的「黑箱基建」。

为了拦截智能程度极高的 AI 机器人,防御规则不能再是简单的黑白名单,而必须是动态的、基于行为分析的复杂模型。

这种复杂度的指数级上升,意味着未来类似的「不可预测的崩溃」会越来越多。

我们正在用复杂的 AI(防御)去对抗复杂的 AI(进攻),而夹在中间的,是脆弱的物理互联网。

这次宕机不仅是一个配置错误,它是人类互联网为了适应 AI 寄生而进行的一次痛苦痉挛。

它是「矛」(AI 抓取)与「盾」(AI 防御)在无限升级的军备竞赛中,把战场(互联网基础设施)给撑爆了。

但是,这波也有用 AI 来打败 AI 的正面例子。

比如,吴恩达团队就在 Cloudflare 宕机的过程中,用 AI 快速实现了 Cloudflare 功能的克隆版本,成为最早一批恢复运行的网站。

属实是用魔法打败魔法了!

最后再放一个彩蛋。

彩蛋:元凶被原地解雇

X 上这位名为 Rob Hallam 的哥们发了个帖子。

说他正是那位搞崩全球互联网的工程师(可能是之一)。

自称是,能用单个正则表达式让 20% 互联网瘫痪,哈哈哈

参考资料:

https://blog.cloudflare.com/18-november-2025-outage/

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 亚马逊 互联网 基建 事故
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论