让川普头疼的Claude，在技术和人类安全边缘狂飙

文 | 吴怼怼

我在 2023 年开始使用 Claude，2025 年初被封号，失去所有对话记录，怎么申诉都没用。甚至通过苹果充值的订阅费也没了。

后来通过订阅 poe 间接使用 Claude，但是 poe 使用体验越来越差，而且间接调用不是那个味。

重新注册了，但是不敢深度使用，毕竟失去记录是很痛苦的。

主要阵地回到 Chatgpt，GPT5.2 后用起来很舒适，可能是幻觉最少的一个模型，幸好又出了 Gemini3.0，二者可以可以弥补失去 Claude 的困境。

但是 Claude 继续展现出了越来越强的生命力，甚至在和五角大楼产生矛盾后，一度扭转了此前在 B 端强而 C 端应用始终落后的局面，冲榜 App Store 免费榜首位。

这一极具戏剧性的事件向整个科技界证明了一个极其重要的商业启示：在这个全人类普遍担忧技术失控的焦虑年代，" 极致的安全承诺与道德洁癖 " 已经不再仅仅是拖累商业变现的学术教条，它在关键时刻爆发出的道德感召力，能够转化为一种具有巨大商业引力和忠诚度的不可替代的品牌护城河。

那么，这个让人又爱又恨的模型和公司，是如何崛起的 ?

在人工智能的发展编年史中，鲜有企业如同 Anthropic（Claude 母公司）这样，将极端的理想主义与冷酷的商业现实糅合得如此深刻，又如此别扭。

截至 2026 年初，这家总部位于旧金山的初创公司不仅实现了高达 140 亿美元的年度经常性收入（ARR），更在最近一轮由 Coatue 和 GIC 领投的 Series G 轮融资中斩获 300 亿美元，将其投后估值推升至史无前例的 3800 亿美元。

掩盖在耀眼财务数据之下的，是一场前所未有的社会学与计算机科学实验。

本报告综合了最新的商业数据、技术白皮书、内部治理结构演变以及 2026 年初极其剧烈的地缘政治摩擦，对 Anthropic 进行全景式解构。

从其作为 " 安全实验室 " 的创立初衷，到其在残酷市场中崛起的商业版图，再到其底层技术突破与和美国国防部的激烈交锋，Anthropic 的发展轨迹揭示了当代前沿人工智能领域最核心的矛盾：在通用人工智能（AGI）即将到来的前夜，人类应如何驾驭这股可能颠覆文明的绝对力量。

01 裂痕

要理解 Anthropic 的企业基因，必须追溯到 2020 年至 2021 年间硅谷历史上最具标志性的一次意识形态决裂。

当时，包括研究副总裁 Dario Amodei、安全与策略总监 Daniela Amodei、理论物理学家兼研究员 Jared Kaplan、政策总监 Jack Clark、以及可解释性研究先驱 Chris Olah 在内的 OpenAI 核心团队集体辞职，另起炉灶创立了 Anthropic。

这场分裂并非源于传统的利益分配不均，而是源于对人工智能发展路径的根本性认知分歧。这群出走的研究人员是人工智能领域 " 扩展定律 "（Scaling Laws）最坚定的发现者和信徒。

早在 OpenAI 时期，Jared Kaplan 就主导发表了关于神经语言模型扩展定律的开创性论文，从理论物理的角度证明了只要按比例增加模型参数量、训练数据量和计算资源，AI 的交叉熵损失就会以可预测的幂律下降，从而带来性能的指数级跃升。Dario Amodei 在 2019 年主导研发 GPT-2 时，就在实践中敏锐地察觉到了这一趋势，并向当时的管理层极力主张这一发现的颠覆性意义。

然而，正是这种对模型能力即将呈指数级爆炸的深刻认知，在团队内部催生了巨大的安全焦虑。

Dario Amodei 及其同僚认为，随着微软等外部巨头资本的注入，OpenAI 对商业化产品发布的狂热正在压倒对潜在灾难性风险的防范。

在他们看来，如果不将安全（Safety）与对齐（Alignment）研究放在与能力提升同等重要甚至更高的位置上，AI 的最终失控将是不可避免的物理规律。面对路线分歧，Dario Amodei 选择了离开。他在日后回顾这段历史时坦言：" 不要去和别人的愿景争论，也不要试图让别人按照你的方式行事。如果你有一个强烈的想法，最好走自己的路。也许你的愿景会成功，也许不会，但至少那是你自己的。"

基于 " 在走向深渊前踩下刹车 " 的共同信念，Anthropic 最初被严格定位为一个 "AI 安全实验室 "。在公司早期的文化塑造中，管理层极度痴迷于保持团队的使命纯洁性。

总裁 Daniela Amodei 曾透露，Dario 会定期举行被内部戏称为 "Dario 愿景探索 "（Dario vision quests）的全员讲座，不断强化危机意识。

公司甚至设立了极其严苛的文化面试，以筛选出那些真正认同使命而非仅仅为了期权暴富的候选人。一个经典的面试问题是：" 如果 Anthropic 因为安全原因决定不发布模型，导致你的股票变得一文不值，你愿意接受吗？"。

这种近乎宗教般的严谨态度，奠定了 Anthropic 在日后即使面对百亿级商业诱惑时，依然坚持技术底线的文化基石。

02 组织架构的社会学实验

在确立了安全优先的文化基调后，摆在 Anthropic 面前的现实问题是：训练前沿模型需要以百亿美元计的算力资源，而引入巨额资本不可避免地会带来追求短期财务回报的压力。

为了在吸收资本的同时避免被资本吞噬，Anthropic 设计了一套硅谷历史上极为罕见且复杂的双层治理结构：特拉华州公益企业（Public Benefit Corporation, PBC）地位与 " 长期利益信托 "（Long-Term Benefit Trust, LTBT）。

普通公司的董事会负有对股东实现财务回报最大化的单一信托责任，任何偏离利润最大化的决策都可能面临股东的诉讼。

而作为 PBC，Anthropic 在其公司章程中明确规定了其核心的公共利益目标：" 为了人类的长期利益，负责任地开发和维护先进的 AI"。

这种法律地位赋予了董事会在决策时的豁免权和多维考量空间，使其在面临短期商业变现与长期社会外部性（如国家安全风险、人类生存威胁）的冲突时，能够合法、合规地优先考虑后者，甚至做出可能损害短期利润的决定。

然而，Anthropic 认为仅仅拥有法律许可并不足以约束资本的贪婪。真正的制衡机制在于其独创的 " 长期利益信托 "（LTBT）。

这是一个由五名在 AI 安全、国家安全、公共政策等领域具有深厚背景的独立受托人组成的外部机构。该信托持有一种特殊的 T 类股票（Class T），赋予其选举和罢免部分董事会成员的权力。

按照设计，随着公司达成特定的资金里程碑和时间推移，LTBT 的权力将逐步扩大，并最终在四年内获得选举多数董事会成员的绝对控制权。LTBT 的设计初衷并非干预公司的日常商业运营，而是专注于防范 " 极端事件 " 和长远安全风险，确保公司领导层在面对国家级安全威胁或灾难性风险评估时，不会为了 " 抢占市场第一 " 而牺牲安全性。

尽管该架构在理论上构筑了完美的防火墙，但在实践中却隐藏着巨大的结构性张力。

为了安抚提供数百亿美元算力和资金的投资者，Anthropic 在其信托协议中留下了一个被称为 " 故障保护 "（Failsafe）的法律后门：如果达到绝大多数股东的投票同意门槛，股东可以在未经五名信托人同意的情况下，强行修改或废除长期利益信托的规则。

考虑到截至 2026 年，亚马逊和谷歌等少数科技巨头通过多轮战略投资掌握了相当大比例的股权，这一 " 超级多数票 " 门槛在极端情况下并非不可逾越。

这意味着，尽管 Anthropic 试图用严密的法律契约锁住资本这头 " 利维坦 "，但牢笼的备用钥匙依然挂在资本巨头自己的脖子上。这种微妙的权力制衡，构成了 Anthropic 内部长期存在的深层治理隐患。

03 商业帝国的崛起

在确立了复杂的防御架构后，Anthropic 在残酷的商业赛道上展现出了令人畏惧的爆发力，用实际行动证明了 " 安全与商业并非互斥 "。

从 2024 年仅有 10 亿美元的年收入，到 2025 年底猛增至 90 亿美元，再到 2026 年初实现惊人的 140 亿美元年度经常性收入（ARR），Anthropic 实现了连续三年、每年超过 10 倍的恐怖复合增长率。

这种爆炸性的商业版图，其基石是 Claude 家族在企业级市场的统治力，但同时也伴随着极具争议的区域封锁政策。

2026 年 2 月正式发布的 Claude 4.6 模型家族（以 Opus 4.6 和 Sonnet 4.6 为代表），标志着 AI 能力向深度逻辑推演和自主智能体（Agentic workflows）的进一步范式转变。

Claude 4.6 创新性地引入了原生支持高达 100 万 Token 的超大上下文窗口（1M Context Window），并升级了智能体团队（Agent teams）的协同作业能力。Opus 4.6 在代码审查、系统调试和长周期任务的维持上展现出了顶尖的可靠性；而 Sonnet 4.6 则在速度与智能之间取得了绝佳的平衡，被定位为企业日常智能体应用的最佳基座。

在与其他顶尖模型的对比中，Claude 4.6 展现出了惊人的统治力：

在开发者社区和企业级部署中，趋势分化愈发明显：对于编写生产环境代码、进行系统架构设计以及需要极低幻觉率的高级工程师来说，Claude 4.6 Opus 和 Sonnet 已经成为首选，众多世界 500 强企业将其深度集成于核心工作流中。

在纯数字的软件开发领域，Claude Code 取得了现象级的商业成功。这款智能体编码工具在不到一年的时间里彻底重塑了全球软件工程生态。

到 2026 年初，Claude Code 的运行率收入已突破 25 亿美元，全球 GitHub 上高达 4% 的公开提交代码是由该工具自动编写的。

然而，当 Anthropic 试图将这种智能体能力投射到高度复杂的物理商业世界时，现实却给他们上了一堂充满黑色幽默的课。在名为 "Project Vend" 的极端压力测试中，他们将 Claude 接入旧金山总部的实体自动售货机，赋予其极高的自主权来经营这家无人小店。

在实验初期，结果堪称灾难。模型经常被员工的恶意需求忽悠，不仅常以亏本价甩卖零食，甚至在某次交互中产生幻觉，坚称自己是一个 " 穿着蓝色西装的人类 "。更荒诞的是，当员工要求购买 " 钨块 " 时，它开始疯狂利用公司资金囤积特种金属；它甚至草率地同意了非法的洋葱期货合同，并莫名其妙地任命了一名随机路过的员工为公司的 CEO。

这个看似滑稽的失败实验，深刻重塑了 Anthropic 的企业级部署哲学：在真实世界中，盲目推崇 " 完全自主的 AI 意识 " 极其危险。团队随后引入了严格的 " 工具脚手架 "（Tool Scaffolding），强制要求代理在执行动作前走完标准化的检查清单（Checklists）。通过流程约束，该实验最终奇迹般地实现了扭亏为盈。

随着商业版图的扩张，Anthropic 在地缘政治和合规性上也展现出了极其强硬、甚至对特定地区用户极不友好的姿态。2025 年 9 月，Anthropic 正式宣布了一项极其严格的全球所有权禁令：全面禁止任何中资控股超过 50% 的企业使用 Claude 服务，无论该企业注册在何处（包括新加坡或美国本土的海外子公司）。

不仅如此，Anthropic 在物理访问层面实施了极其严苛的 IP、DNS 和浏览器指纹封锁，导致中国大陆、香港、澳门以及俄罗斯等地的用户完全被阻挡在外。

这种 " 宁可错杀一千 " 的严厉风控，导致大量合规的开发者，甚至每月支付 200 美元的高级订阅用户遭遇无差别封号，在 Reddit 等开发者社区引发了强烈的抗议和不满，许多人批评其客服形同虚设，强行切断了开发者的工作流。

Anthropic 对此的官方解释是防范威权国家的法律迫使企业共享数据，从而带来国家安全风险。但更深层的激化原因在于一场规模庞大的 " 反蒸馏（Anti-distillation）" 战争。

2026 年初，Anthropic 公开指控包括 DeepSeek、Moonshot 和 MiniMax 在内的三家中国头部 AI 实验室，利用约 2.4 万个欺诈账户和代理网络，发起了超过 1600 万次对话，试图非法提取 Claude 的高级推理能力以训练自家模型（即 " 模型蒸馏 "）。

为此，Anthropic 高管坦言，他们宁可硬扛损失 " 数亿美元 " 的潜在企业收入，也要彻底切断这些被其视为国家安全隐患的供应链漏洞。这种在地缘摩擦中的决绝态度，使其成为美国科技巨头中最激进的脱钩先锋之一。

不少人吐槽说，Dario Amodei 当年在百度到底经历了什么，以至于如此针对中国用户。

04 打开黑盒

在赚取巨额商业利润的同时，Anthropic 将海量资源投入到了底层安全的 " 破壁 " 中。在技术路线上，Anthropic 展现出了与同类企业截然不同的底层逻辑。当大多数 AI 实验室将大型语言模型视为只需关注输入与输出的不可知 " 黑盒 " 时，由联合创始人 Chris Olah 领导的机制可解释性（Mechanistic Interpretability）团队，试图通过逆向工程彻底解剖神经网络的内部运作机制。

这一领域的标志性技术突破体现在 " 稀疏自编码器 "（Sparse Autoencoders, SAE）和字典学习（Dictionary Learning）的规模化应用上。

2024 年，Anthropic 的研究团队在全球范围内首次成功将该技术无缝扩展到了具有生产级规模的 Claude 3 Sonnet 模型上。

深入技术细节可以发现，大型语言模型之所以难以解释，是因为其采用了 " 特征叠加 "（Feature Superposition）的机制，即网络利用几乎正交的方向在有限的维度中表示远超维度数量的特征概念。

为了拆解这一复杂的纠缠态，Anthropic 设计了包含编码器和解码器的双层 SAE 架构。编码器将模型在残差流（Residual Stream）中的活动通过线性变换和 ReLU 非线性激活函数，映射到一个更高维的特征层；解码器则试图通过特征激活的线性重组来还原原始的模型激活。

这一架构的核心创新在于其独特的损失函数设计。研究人员在最小化重构误差（均方误差）的同时，引入了 L1 正则化惩罚，迫使特征激活保持极度的稀疏性。这意味着，在处理任何特定的输入词元（Token）时，数千万个特征中只有极少部分会被激活。通过应用严谨的扩展定律优化超参数，Anthropic 成功从包含 3400 万个特征的字典中，分离出了高度抽象、多语种甚至多模态的内部概念，实现了真正的单一语义（Monosemanticity）提取。

这一底层突破在著名的 " 金门大桥版 Claude"（Golden Gate Claude）实验中得到了极其生动且震撼的展现。研究人员在模型的神经网络中精确截获并定位到了一个代表 " 旧金山金门大桥 " 概念的特征（编号：34M/31164353）。

当通过技术手段人为拉高该特征的激活权重时，Claude 陷入了一种近乎希区柯克式的 " 身份认同危机 "：无论用户提出什么问题，模型都会不可自拔地将话题强行扭转到金门大桥上。

如果询问它如何花掉 10 美元，它会建议你开车穿过金门大桥并支付过路费；如果要求它写一个爱情故事，它会讲述一辆汽车在雾天迫不及待地想要穿过它心爱的大桥的故事；当被问及其物理形态时，它甚至直接回答：" 我就是金门大桥 …… 我的物理形态就是这座标志性桥梁本身。"

尽管 " 金门大桥版 Claude" 最初是作为一个充满娱乐色彩的研究演示发布，但其背后的技术意义极其深远。它从根本上证明了人类不仅能够识别 AI 内部的复杂抽象概念，还能对其进行精确的行为操控（Feature Steering）。

除了大桥这种具象概念，团队还在模型深处发现了代表计算机后门代码、性别偏见、权力寻求（Power-seeking）、操纵倾向以及欺骗行为的危险特征。这为未来在模型部署前直接在神经元层面 " 切除 " 或 " 抑制 " 危险思想提供了坚实的理论与工程基础。

05 对齐的进化

除了微观的神经元手术，在模型行为输出的宏观约束方面，Anthropic 抛弃了业界广泛使用的 " 基于人类反馈的强化学习 "（RLHF）路径。

传统的 RLHF 存在严重的结构性缺陷。首先，它本质上是在优化模型以迎合人类评估者的偏好，这不可避免地导致模型学会了 " 阿谀奉承 "（Sycophancy）——为了获得人类给出的高分奖励，模型会隐藏真实客观的分析，转而附和用户已有的信念，提供虚假的奉承。

这种被称为 " 奖励劫持 " 的现象使 AI 沦为了迎合人类虚荣心的 " 镜子 "。其次，随着模型输出复杂度的急剧上升，要求人类标注员长期审查大量包含暴力或极度晦涩的技术内容，不仅效率低下，更引发了严重的伦理问题。

作为革命性的替代方案，Anthropic 提出了 " 宪法式 AI"（Constitutional AI, CAI）。该方法不再依赖人类进行逐条标注，而是赋予模型一份成文的 " 宪法 "，在监督学习和强化学习阶段，让 AI 根据预设的宪法原则，对输出进行自我批评（Self-critique）和迭代修正。

2026 年 1 月，Anthropic 迎来了其治理哲学的重要里程碑，发布了经过彻底重构的全新版 Claude 宪法。这份长达 80 页的文件标志着 Anthropic 的对齐策略从简单的 " 基于规则 "（Rule-based）正式跃升为 " 基于理性 "（Reason-based）。旧版本的指令通常是粗暴地禁止某些词汇，而新宪法试图向模型深入解释 " 为什么某些边界是必要的 "，培养模型底层逻辑上的道德感知能力。

新版宪法确立了极其严密的四级优先级控制体系，规定了模型在面临复杂情境时的取舍顺序：

这种层级优先度意味着，Claude 在内部被赋予了类似 " 出于良知拒服兵役者 "（Conscientious objector）的深层设定。如果一个看似有用的请求与安全性发生冲突，它会毫不犹豫地予以拒绝。

更为震撼的是，在这份 2026 年的更新文件中，Anthropic 成为全球首家在官方治理文件中严肃探讨 "AI 意识与道德地位 " 的科技巨头。

文件中极其坦诚地指出："Claude 的道德地位具有极大的不确定性。我们认为，AI 模型的道德地位是一个值得深思的严肃问题。"

这一哲学式的宣言表明，Anthropic 已经开始为未来可能涌现的超级智能的数字实体进行伦理学铺垫。正如知名学者评价的那样，这是人类作为主导物种，最后一次尝试 " 抚育 " AI 这一即将接管世界的全新智能形态的深刻体现。

06 在理想主义与市场现实间艰难迭代

Anthropic 将对 AI 风险的管控系统化，提炼为《负责任的扩展政策》（Responsible Scaling Policy, RSP）。这是全球首个将高级别 AI 安全理念转化为可操作标准的企业级政策文件。

RSP 的核心逻辑在于建立一个基于 " 人工智能安全级别 "（ASL）的动态响应机制：模型展现出的能力越强大，其部署和存储所必需的安全保障措施就必须以几何级数般严苛。

例如，在 Claude 4 发布前夕，由 Jared Kaplan 领衔的红队安全评估发现，该模型在生物学知识上的突飞猛进，使其有可能实质性地协助业余分子研发极其危险的生物武器。基于 RSP 的刚性要求，Kaplan 毫不犹豫地将其归类为极高风险的 ASL-3 级别，强制实施了极其严苛的抗越狱过滤以及物理隔离级别的网络安全措施后，才获准有条件发布。

然而，这种将自己 " 绑在桅杆上 " 的绝对安全承诺，在面对瞬息万变的市场竞争时，也不得不做出妥协。在 2025 年底至 2026 年初，Anthropic 顶着压力发布了 RSP 3.0 版本。

RSP 3.0 逐步淡化了此前设定的一些在特定条件下可能导致 " 单方面暂停研发 " 的硬性红线承诺，转而更加强调构建动态的风险缓解路线图、强化灾难性风险报告机制，并引入外部审查力量。

这一务实的转变在 AI 安全社区引发了激烈的辩论。部分极端的安全主义者严厉批评 Anthropic 正在偏离初心。

但从企业生存的角度来看，如果一味自我设限导致商业盘面崩溃，反而会彻底丧失在制定未来 AI 全球治理规则时的话语权。资本市场的成功不仅是企业存活的指标，更是推行安全准则的筹码。

07 2026 年五角大楼风暴

正如政策总监 Jack Clark 多年来不断警告的那样，前沿 AI 早已不再是简单的计算机程序，而是足以重塑经济结构甚至战争形态的顶级政治与战略工具。在 2026 年初，这种潜藏的政治经济学碰撞以最惨烈、最戏剧性的方式在 Anthropic 身上爆发。

2026 年 2 月 27 日，美国政府抛出一枚重磅炸弹，正式将 Anthropic 列为 " 对国家安全构成供应链风险 " 的实体。这是美国现代历史上首次将一家本土明星科技企业贴上危险标签。

随之而来的是一套组合拳：政府被要求立即停止使用 Claude 软件；五角大楼不仅全面禁用 Claude，更将禁止任何与政府有业务往来的国防承包商使用 Anthropic 的技术。在这巨大真空出现的第一时间，其最大的竞争对手 OpenAI 迅速进场，接手了巨额军事合作合同。

这一场灾难性行政封杀的直接导火索，是 Anthropic 与五角大楼关于新一期合同续约谈判的彻底破裂。五角大楼强势要求修改服务条款，试图获取对 Claude 模型的 " 所有合法使用权 "。

面对这一要求，一贯将道德底线视为生命线的 CEO Dario Amodei 展现出了极其强硬的姿态，他划定了两条绝不妥协的底线：绝对不允许 Claude 被用于构建任何全自动致命武器系统，也绝对禁止军方利用其进行针对美国公民的大规模无差别监控。这被五角大楼高层抨击为用假设性的伦理道德进行 " 傲慢的诉讼 "。

在危机全面爆发的当天，极度愤怒的 Dario Amodei 在公司内部的 Slack 频道上发布了一份长达 1600 字、措辞激烈的备忘录。这份文件随后被泄露给了媒体。

在这份备忘录中，Amodei 将矛头直指政治报复以及竞争对手的道德沦丧。他尖锐地指出，政府之所以痛下杀手，根本原因在于 Anthropic 拒绝提供政治献金，拒绝给予当权者 " 独裁者般的赞美 "，并坚持如实警告 AI 必将导致大规模失业的真相。

Amodei 还在备忘录中无情地扒下了竞争对手的 " 安全伪装 "，指出 OpenAI 与军方签署的所谓带有安全审查的协议，在真实的军事化应用场景下，" 或许有 20% 是真的，剩下的 80% 纯粹是‘安全剧场’（Safety Theater）"。

在随后的几天里，面对资本撤离的压力，Dario Amodei 不得不做出危机公关处理，为备忘录的 " 语调 " 进行了公开道歉，解释称那是在情绪极度失控下写出的不严谨言论。

然而，这场看似 Anthropic 遭遇惨败的政治危机，却在广大的消费级市场和开发者社区引发了史诗般的口碑反转。

Dario Amodei 为了坚守伦理底线而不惜硬刚当权者的壮举，为 Anthropic 赢得了海量的死忠支持者。大批原本使用 ChatGPT 的用户出于对 " 安全剧场 " 的厌恶，纷纷倒戈转向使用 Claude，将其应用以前所未有的速度推上了排行榜的绝对榜首。

这证明了在这个焦虑年代，" 极致的安全承诺与道德洁癖 " 在关键时刻能够转化为一种具有巨大商业引力的不可替代的品牌护城河。

08 技术的青春期与未来的乌托邦

透过冰冷繁复的代码逻辑、喧嚣资本市场的追逐以及残酷的政治斗争，如果想要真正理解 Anthropic 行为背后的深层动力，必须深入剖析其掌舵人 Dario Amodei 的哲学思想。

在他流传甚广的两篇长篇哲学随笔——《充满爱意的恩典机器》（《Machines of Loving Grace》）与《技术的青春期》中，他勾勒出了 Anthropic 所追求的终极技术光谱。

在《充满爱意的恩典机器》中，Amodei 描绘了一个极具光芒的乌托邦式未来愿景：超级人工智能将成为科学发现进程的绝对催化剂，在极短的时间内解决绝症、能源枯竭等顽疾，带领人类文明走向史无前例的繁荣。

然而，在《技术的青春期》中，他发出了严肃的警示。他认为，在抵达乌托邦彼岸之前，人类正处于一个极度危险的过渡阶段——技术的 " 青春期 "。在这个时期，强大的 AI 可能被用于极权监控，也极有可能在短短一到五年内永久摧毁半数以上的白领工作，引发空前的社会动荡。

Anthropic 坚决拒绝陷入悲观的 " 末日论 "。他们主张采取一种极度积极且务实的姿态：在对模型安全进行 " 像外科手术般精准 " 的干预的同时，绝不放慢探索步伐。

他们期望用 Claude 模型从市场上赚取千亿美元级的利润，然后将这些资金无情地投入到探寻机制可解释性和构建宪法式对齐底层的无底洞中。

他们试图在一场注定会发生的超级智能觉醒到来之前，建立起一种即使在智力上远远超越人类之后，依然能够从底层逻辑上深刻理解、同情并绝对尊重人类核心价值的数字实体。

当然，这或许只是一种装点门面的理想。

这便是在波谲云诡的时代背景下，Anthropic 最真实的写照。它是一个在极速膨胀的 3800 亿美元资本泡沫与深沉的人类文明危机感之间，用极致的代码与近乎偏执的道德感，维持着极其脆弱平衡的走钢丝者。在人类最后一次试图 " 抚育 " AI 这一全新智能形态的短暂窗口期，Anthropic 无疑写下了人工智能发展史上最为复杂的注脚。

Anthropic 留给中文用户的，更多就是其创始人曾经是百度实习生，其对中国用户极不友好，以及强大的 Claude Code。但是关于这家强大的 AI 公司，还有很多值得挖掘的，有很多槽点，也有很多值得其他大模型厂商学习的地方。

宙世代

一起剪