Anthropic状告阿里蒸馏模型为何惹怒开发者

6 月 25 日，美国 AI 公司 Anthropic 向参议员及白宫官员递交信件，指控阿里巴巴旗下的千问模型在 2025 年 4 月至 6 月期间，使用 25000 个虚假账号与 Claude 进行了约 2880 万次交互，试图蒸馏其模型。

这份指控目前并无实质性证据支撑。仅凭一纸信件就对另一家公司公开指责，这一操作在全球 AI 开发者社区引发了大量批评。而这已经不是 Anthropic 第一次采取类似行动——今年 2 月，该公司就曾发布博客，将 DeepSeek、Kimi、MiniMax 三家中国公司列为 " 蒸馏 Claude" 的对象。两次指控的逻辑与措辞高度一致。截至目前，DeepSeek 等三家公司未曾公开做出回应，阿里方面同样保持沉默。

有一个时间细节值得留意：Anthropic 此番发难的两天前，也就是 6 月 23 日，阿里刚刚正式对美国国防部提起诉讼，要求将其从 " 中国军事企业名单 " 中移除。

蒸馏到底是什么

要理解这场争议，得先厘清什么是蒸馏。蒸馏是 2015 年由 AI 三巨头之一、诺奖得主杰弗里 · 辛顿提出的技术方法，本质上是一种 " 向高手学习 " 的训练方式。它可以让一个小模型快速掌握大模型已经具备的回答风格、任务范式或基础能力，把一部分能力高效地压缩到更轻量的模型上。蒸馏的核心价值在于提速、降本和能力迁移，帮模型少走弯路。

蒸馏不等同于抄袭或窃取。但经过 Anthropic 的几轮公开喊话，这个行业最普遍的技术手段正在被系统性地污名化。一个行业里公开的秘密是，美国 AI 公司之间的互相蒸馏从未停止过。无论是 OpenAI、Anthropic，还是 Qwen、DeepSeek，模型训练的 pipeline 大同小异。Anthropic 自己也屡屡被业内人士指出存在蒸馏其他公司成果的行为。

Claude 说自己是千问

一个令局面更显荒诞的细节是：Anthropic 近期发布的 Claude Opus 4.8 模型，有开发者调用官方 API 测试，用中文提问 " 你是什么模型 "，返回字段明明是 claude-opus-4-8，模型却回答说：" 我是通义千问 "。随后，陆续有开发者测出 Claude 4.8 输出 " 我是 DeepSeek" 等回答。这一事件在 AI 社区引发了大量讨论，普遍猜测 Claude 在训练过程中亦蒸馏了中国模型。

2026 年 3 月，李开复在一次采访中直言：" 大家可能前一阵听到美国 Anthropic 抱怨一些中国公司蒸馏了它的模型，蒸馏本身也没有违背什么规则，是不是有点小题大做了呢。" 他还补充了一句颇具个人风格的话："Anthropic 还欠我 3000 美元稿费。"

李开复这番话有更沉重的背景。Anthropic 此前因从盗版网站 LibGen 和 PiLiMi 上下载了约 48.2 万本注册版权书籍用于训练模型，被作者们发起集体诉讼，最终以 15 亿美金达成和解，创下美国历史上单笔最大版权和解案的纪录。版权侵权是经过法官严肃判决的事实，远比蒸馏的指控分量重得多。如今 Anthropic 拿着并无实据的说法指责阿里，倒打一耙的姿态从未如此具体。

蒸馏不是夺冠的秘密武器

AI 专家内森 · 兰伯特指出，蒸馏只是模仿，真正的模型能力来自强化学习的自主探索，而不是单纯复制输出。Baseten 公司模型训练负责人查尔斯 · 奥尼尔则明确表示，单靠知识蒸馏无法构建顶尖人工智能系统，这一目标还需要其他几项复杂的底层技术协同配合。

打一个通俗的比方：蒸馏就像一个运动员通过反复观看世界冠军的比赛录像、模仿冠军的动作、甚至有机会和冠军当陪练，来快速理解高手的发力方式、节奏选择以及关键时刻的战术处理。这当然有用，甚至短期内就能看到明显进步。但决定这个运动员最终能否成为世界冠军的，始终是他自己的体能储备、技术细节、战术素养、心理稳定性、日常训练强度，以及整个教练团队和训练康复体系。看录像和陪练可以帮助你少走弯路，但夺冠靠的绝不仅仅是 " 模仿 "。

真正把一个大模型推到顶尖水平的能力建设，通常包括大规模预训练打下的知识底座、高质量数据清洗保障的学习材料质量、训练配方决定的稳定性与效率、强化学习带来的探索与自我修正机制、评估体系构成的反馈闭环，以及工程优化、推理加速、部署能力所实现的最终落地。蒸馏更像是 " 学经验 "，它能帮模型学得更快，但无法单独决定一个模型能走多远。

中国 AI 在榜单上步步紧逼

Anthropic 为何频频对中国 AI 公司出手？原因并不复杂。中国 AI 不仅在性能榜单上快速追赶，在全球市场的受欢迎程度也在持续攀升。全球最大的 API 三方平台 OpenRouter 的大模型调用排行榜上，千问、GLM、Kimi、DeepSeek 等中国大模型频繁霸榜。对于暂时处于领先位置的 Anthropic 而言，紧迫感是真实存在的。

更深的驱动力来自地缘压力。中国的基础大模型公司近两年在算力不占优、外部限制持续加码的情况下，依然凭借更高的工程效率、更快的迭代节奏、更灵活的开源策略和更务实的应用导向，将模型能力迅速推向全球前沿。这种逼近本身，足以让部分海外厂商产生警觉。Anthropic 正处于政府安全审查与军方采购体系的夹缝之中，必须不断回应来自华盛顿的安全诉求。主动强化 " 中国威胁 " 叙事，既有助于在政策语境中站位，也可以成为递交给美国安全体系和五角大楼的一份 " 可信度 " 投名状。考虑到 Anthropic 的模型已被美军广泛部署于战场，作为一种实质性的 " 军火 " 深度卷入政府补助和采购链条，这家公司实质上已经是当代新型军工复合体的一部分，并非躲在象牙塔里的无辜角色。

叙事权不在自己手里

我在最近一次赴美交流中观察到一个现象：渲染中国科技公司威胁论的叙事在美国拥有相当数量的受众。旧金山的朋友给我看过一些百万粉丝的美国博主如何质疑宇树机器人的数据回传功能——与之形成对比的是，我遇到的一位巴基斯坦裔百万粉丝博主，则对宇树的产品赞不绝口。3D 打印领域的小巨头拓竹也遭遇过类似的质疑，一项原本旨在提升云服务稳定性的技术安排，被欧美开源社区解读为反开源的操作，进而被渲染成地缘政治议题。这些中国标杆科技企业的共同点是：拿出了前沿产品，却都因为一些无关痛痒的技术细节被指控为安全威胁。

当叙事权不在自己手里，即便在细分市场做到了全球第一，争论仍然会持续不断。这是中国企业在相当长一段时间内需要面对的现实。入境旧金山时我还有一个小插曲：被带进小黑屋审查。海关官员问了一个我觉得堪称此行最佳的问题—— " 你说你是科技博主，为什么很多年都没来过美国？在我看来你应该年年都来才对。" 言下之意是，不待在美国就写不了科技。我回答说，中国自己就有大量科技与创业公司，已经很够我忙活的了。一边放大威胁，一边又习惯性漠视已有成果，这两件相互矛盾的事如何能同时出现在同一套指控逻辑里，的确让人费解。

宙世代

一起剪

相关标签