大模型套壳往事

本文来自微信公众号：直面 AI，作者：李炤锋，题图来自：AI 生成

华为盘古大模型涉嫌套壳阿里云 Qwen 大模型的风波，再次将模型 " 原研 " 与 " 套壳 " 的讨论摆上了台面。

回溯三年前，在 ChatGPT 刚刚开启大模型航海时代时，那时候的套壳还停留在小作坊山寨 ChatGPT 的阶段。调用 ChatGPT 的 API，接口再包上一层 " 中文 UI"，就能在微信群里按调用次数卖会员。那一年，套壳成了很多人通往 AI 财富故事的第一张船票。

同时，开始自主研发大模型的公司里，也不乏对 ChatGPT 的借力。这些企业虽然有着自研的模型架构，但在微调阶段或多或少利用了 ChatGPT 或 GPT-4 等对话模型生成的数据来做微调。这些合成语料，既保证了数据的多样性，又是经过 OpenAI 对齐后的高质量数据。借力 ChatGPT 可以说是行业内公开的秘密。

从 2023 年开始，大模型赛道进入开源时代，借助开源框架进行模型训练，成为了很多创业团队的选择。越来越多的团队公开自己的研究成果，推动技术的交流与迭代，也让套壳开发成为了更普遍的行为。随意之而的，争议性的套壳事件也逐渐增多，各种涉嫌套壳的事件屡次冲上热搜，随后又被相关方解释澄清。

国内大模型行业也在 " 套 " 与 " 被套 " 中，轮番向前发展着。

一、GPT 火爆的那一年：山寨 API 和造数据

回顾 AI 的进化史，今天我们看到各类大模型都源自同一个鼻祖—— 2017 年 Google Brain 团队发布的 Transformer 神经网络架构。Transformer 的原始架构和核心包括编码器（Encoder）与解码器（Decoder），其中，编码器负责理解输入文本，解码器负责生成输出文本。

如今，在大型语言模型领域依然采用三大主流 Transformer 架构：Decoderonly（如 GPT 系列）、EncoderDecoder（如 T5）和 Encoderonly（如 BERT）。不过，最受关注和应用最广泛的，是以 Decoderonly 为核心的 GPT 式架构，并不断衍生出各种变体。

2022 年 11 月，基于 GPT3.5，OpenAI 推出 ChatGPT，发布后短时间内获取数千万用户，让 LLM 正式登上公众舞台，也将 GPT 架构推为主流 AI 架构。随着 ChatGPT 打响大模型时代第一枪，各大厂商纷纷涌入大模型研发赛道。由于 ChatGPT 无法直接接入国内用户，一些小作坊也看到了套壳的牟利前景。

2022 年底开始，许多山寨 ChatGPT 在互联网上涌现，此时的套壳基本不涉及任何二次开发，很多开发者直接包装一下 API 就拿出来卖钱。

2022 年底至 2023 年，国内涌现数百个 ChatGPT 镜像站，包括名噪一时的 "ChatGPT 在线 " 公众号，运营者拿到 OpenAI API，再在前端加价售卖。这种低劣的套壳手段很快就被监管部门发现，"ChatGPT 在线 " 背后的上海熵云网络科技有限公司，就因涉嫌仿冒 ChatGPT 被罚 6 万元，成为首例 "ChatGPT 套壳 " 行政处罚。

另一方面，在同期发布的其他模型中，时常出现一些 "GPT 味 " 的回复，这些模型背后的企业也遭受了套壳质疑。

2023 年 5 月，曾有网友发现，讯飞星火大模型在有些问答中会出现 " 我是由 OpenAI 开发的 " 等内容，由此一则关于 " 讯飞星火大模型被质疑‘套壳 ChatGPT ’ " 的消息传播开来。

这种情况并非个例，甚至 2024 年发布的 DeepSeek V3 也曾爆雷，有用户反映其在测试中出现异常，模型自称是 OpenAI 的 ChatGPT。相关企业对这类情况的解释为，这可能是由于训练数据中混入了大量 ChatGPT 生成的内容，导致模型 " 身份混淆 "。

互联网公开信息中 AI 内容日渐增多造成的数据污染，确实是可能造成这些 "GPT 味 " 对话的原因。但另一种可能是，模型研发团队在微调训练过程中，主动使用了通过 ChatGPT 等 OpenAI 旗下模型构造的数据集，也就是所谓的 " 数据蒸馏 "。

数据蒸馏是大模型训练中一种高效低成本的知识迁移方式，这里的逻辑就像是用一个强大的 " 老师模型 "（如 GPT-4）生成大量高质量问答数据，而后将这些数据喂给一个 " 学生模型 " 去学习。

事实上，在 GPT -3 之后，OpenAI 就彻底转向了闭源，所以对于想要自研大模型的竞争对手而言，并无法在基础架构层面套壳 OpenAI 的产品。这些企业或多或少也在模型技术上有一定积累，在架构层面纷纷推出自家的研究成果，但如果想要保证训练质量，从更强的模型产品那里以借力的方式获取数据无疑是一种捷径。

虽然借力 ChatGPT/GPT-4 生成训练数据是业内公开的秘密，但一直以来鲜有被披露的案例，直到那起著名的 " 字节抄作业 " 事件。2023 年 12 月，外媒 The Verge 报道称，字节跳动利用微软的 OpenAI API 账户生成数据来训练自己的人工智能模型，这种行为实际上已经违反了微软和 OpenAI 的使用条款。在此消息被披露不久，据传 OpenAI 暂停了字节跳动的账户。

字节跳动方面随后表示，这一事件是技术团队在进行早期模型探索时，有部分工程师将 GPT 的 API 服务应用于实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。按照字节跳动的说法，其对于 OpenAI 模型的使用是在使用条例发布之前。

对此，来自国内某头部 AI 企业算法部门的叶知秋向直面 AI 表示，业内的普遍认知是，数据蒸馏不应该被认为是套壳。" 数据蒸馏只是一个手段，通过一个能力足够强的模型产出数据，对于垂直领域（的另一个模型）去做加训。"

加训（Continual Training）是一种常见的提升模型性能的方法。通过在新数据上继续训练模型，可以使其更好地适应新的任务和领域。" 如果利用数据蒸馏做加训算套壳，那这个技术就不该被允许。" 叶知秋解释道。

2025 年的今天，大模型开发市场日渐成熟，直接调用 API" 山寨套壳 " 的模型产品已逐渐消失。在应用层面，随着 AI Agent 领域的快速迭代，调用 API 落地的 AI 工具已经成为常态，如 Manus 这类通用 AI Agent 逐步进入市场，AI 应用层面的套壳已经成为了一种常见的技术手段。

而在大模型开发领域，随着开源时代的到来，模型开发领域的套壳，又陷入了新一轮的争论。

二、开源大模型时代：你用我用大家用

进入 2023 年，许多厂商选择开源方式公布模型方案，用以刺激开发者群体对模型 / 模型应用的迭代。随着 Meta 在 2023 年 7 月开源 LLaMA 2，标志着 AI 行业也进入开源时代。在这之后，先后有十余款国产模型通过微调 LLaMA 2 完成上线。同时，利用开源模型架构进行二次开发，也成为了新的套壳争议点。

2023 年 7 月，百川智能 CEO 王小川回应了外界对旗下开源模型 Baichuan-7B 套壳 LLaMA 的质疑。他提到，LLaMA 2 技术报告里大概有 9 个技术创新点，其中有 6 个在百川智能正在研发的模型里已经做到。" 在跟 LLaMA 2 对比的时候，我们在技术的思考里不是简单的抄袭借鉴，我们是有自己的思考的。"

就在几个月后，国内 AI 圈迎来了另一场更汹涌的套壳风波。2023 年 11 月，原阿里技术副总裁、深度学习框架 Caffe 发明者贾扬清在朋友圈中称，某家套壳模型的做法是 " 把代码里面的名字从 LLaMA 改成了他们的名字，然后换了几个变量名。" 事后证实，该信息直指零一万物旗下的 Yi-34B 模型，开源时代的套壳争议被搬到台面上。

一时间，关于零一万物是否违反了 LLaMA 的开源协议，在各大技术社区引发了激烈的争论。随后，Hugging Face 工程师 Arthur Zucker 下场对这一事件发表了看法。他认为，LLaMA 的开源协议主要限制了模型权重，而不是模型架构，所以零一万物的 Yi-34B 并未违反开源协议。

事实上，利用开源模型架构只是打造新模型的第一步，零一万物在对 Yi-34B 训练过程的说明中也作出了解释：模型训练过程好比做菜，架构只是决定了做菜的原材料和大致步骤……其投注了大部分精力在训练方法、数据配比、数据工程、细节参数、baby sitting（训练过程监测）技巧等方面的调整。

对于 AI 行业而言，推动技术开源化的意义之一是停止 " 重复造轮子 "。从零研发一款全新的模型架构，并跑通预训练流程需要耗费大量成本，头部企业开源可以减少资源浪费，新入局的团队通过套壳得以快速投入到模型技术迭代和应用场景中。百度 CEO 李彦宏就曾表示：" 重新做一个 ChatGPT 没有多大意义。基于语言大模型开发应用机会很大，但没有必要再重新发明一遍轮子。"

2023～2024 年，AI 行业掀起一场 " 百模大战 "，其中的国产大模型大约 10% 的模型是基座模型，90% 的模型是在开源模型基础上加入特定数据集做微调的行业模型、垂直模型。套壳帮助大量中小团队站在巨人的肩膀上，专注于特定领域的工程化和应用探索。

如今，在 Hugging Face 上按 " 热度 " 排序检索，以文本模型为例，DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5 以及来自法国的 Mistral 系列模型均位居前列，这些开源模型的下载量在几十万到上百万不等。这表明开源极大地促进了行业的进化。目前，Hugging Face 平台上共有超过 150 万个模型，其中绝大多数是用户基于开源架构的衍生产物—— sft 微调版本、LoRA 微调版本等。

另一方面，随着 LoRA 与 QLoRA 等轻量化微调方案面世，定向微调模型的成本也在不断下降，为中小型团队进行模型开发提供了有利基础。麦肯锡在今年 5 月的一份调查显示，92% 的企业借助对开源大模型的微调提高了 24%～37% 的业务效率。

2023 年以来，模型开发门槛因开源不断降低，在迎来百模齐放的良好生态之余，也浮现出一些浑水摸鱼的恶劣套壳行为。

2024 年 5 月，斯坦福大学的一个研究团队发布了一个名为 LLaMA3V 的模型，号称只要 500 美元（约人民币 3650 元）就能训练出一个 SOTA 多模态模型，效果比肩 GPT-4V。

但随后有网友发现，LLaMA3V 与中国企业面壁智能在当月发布的 8B 多模态开源小模型 MiniCPM-LLaMA3-V 2.59（面壁小钢炮）高度重合。在实锤套壳抄袭后，该团队随后删库跑路。该事件一方面反映出，国产模型凭借其优异性能也成为了被套壳的对象；同时，也再一次引发了业界对开源时代套壳合规边界的思考。

对于 AI 行业而言，厂商通过开源以协作的方式可以对模型进行完善与优化，加速推动问题解决与技术创新。由于协作的工作模式和开放的源代码，开源大模型的代码具有更高的透明度，并且在社区的监督下，公开透明的代码能更容易进行勘误。

" 透明度 " 是促进开源社区交流进步的关键，而这需要二次开发的团队和所有从业者共同维系。在 LLaMA3V 的案例中，斯坦福方面的研究团队只是对 MiniCPM-LLaMA3-V 2.59 进行了一些重新格式化，并把图像切片、分词器、重采样器等变量重命名。

原封不动地拿过来，并且作为自己的学术成果发布，相比起套壳，这更像是彻头彻尾的抄袭。

所以，套壳的道德边界，究竟是什么呢？

三、" 套壳 " 和 " 自研 " 的矛盾体

" 如果一个团队没有以原生模型的名义发表，就不能叫套壳，应该叫模型的再应用。" 谈及套壳的定义，叶知秋这样说道。在加入大厂项目之前，叶知秋曾参与过一些创业公司的开源项目。他判断，业内有实力造基础模型的企业只会越来越少，加速利用开源技术是行业发展的必然，" 毕竟核心技术上，只有那几家公司有。"

叶知秋口中的 " 核心技术 "，指的是从零研发模型基础架构，并落实预训练流程的能力。相关报道显示，国内目前有完整自研预训练框架的大模型公司数量较少，仅有 5 家左右。能 " 造轮 " 的企业屈指可数，对此叶知秋的解释是：" 一些企业也有实力投入基础模型研究，但他们要考虑做这件事的收益。"

" 演化和加训，严格来说和套壳是两码事。" 叶知秋表示，像 LLaMA 这样的开源架构已经为业内熟知且熟用，很多成果都是在这一架构的基础上演化而来的。但同时他也强调，套壳合规与否在于冠名问题，利用开源技术就需要在技术文档中做出明确说明，" 如果你是在一个已经开源的模型上进行加训，那就要在冠名和文档中体现这一点。"

对于如何理解大模型非法套壳，知识产权法领域的法律界人士秦朝向直面 AI 分享了他的看法。他表示，一些恶劣的 " 套壳 " 行为虽然在社会舆论上引发很多反响，在法律视角上却是另一回事。如何区分套壳和抄袭的界限、如何证明因为套壳行为导致了不当获利、如何证明具体的获利额度，这些问题都存在着一定的举证难度。" 目前来说，这一类事情还处于一个灰色地带。"

秦朝进一步解释，所谓 " 借鉴 " 就是很难区分性质的套壳，一些开发者可能 " 借鉴 " 了不止一家企业，然后宣称是自研产品。除非是简单粗暴的纯套壳，不然很难去界定这一行为的恶劣程度。" 而且大模型赛道发展速度极快，走法律流程下来可能要两三年，到那时技术都更新换代了。"

在技术圈语境下，自研是套壳的反义词。在叶知秋看来，如果一个模型团队宣称自己是全程端到端自研，势必会吸引业内同行审视的目光，未公开的套壳行为很难真正被掩盖。" 一个开源的模型，其实一切信息都有迹可循，就是看业内人去不去挖掘而已。"

叶知秋进一步解释道，模型原研厂商都会在大模型组件中留下一些 " 标签 "，当研发团队在发布论文时，这些 " 标签 " 就会被用以证明其采用了创新技术。因为一旦团队宣称这款模型是自研，那就需要说明，这款新的模型基于传统模型有什么不一样的地方。" 如果没有，那大家必然会问，你的模型的架构是从哪来的？"

对于一些企业而言，套壳和自研的取舍，也往往伴随着成果产出的压力。另一位资深算法从业者向直面 AI 表示，借鉴架构 / 方案在业内并不稀奇，因为很多团队需要尽快解决 0 到 1 的问题。" 在保留技术底线基础上，能有成果产出是最重要的。"

针对这一现象，叶知秋表示，一些头部企业虽然在其他领域实力雄厚，但在模型领域，可能在底层的训练逻辑上缺少经验和积累。对这些企业而言，充分利用开源技术套壳，可以更快完成从数据层面到模型层面的积淀。" 像一些企业在某一领域的‘垂类’大模型，其实都有‘套壳’的成分在。"

" 通过‘套壳’去做自己的开发，还是非常低成本高价值的。" 作为从业者，叶知秋十分肯定开源为行业带来的积极影响。他认为，长期来看，单一企业很难在模型能力上建立壁垒，开源有助于整个行业的进步，实现更高的效率、更低的成本，去打造更多的模型能力。

关于开源时代的套壳争议，叶知秋表示，这些争议本质上还是跟企业的宣传口径有关，" 用开源技术不丢人，前提是企业不要宣传是自研。"

（文中叶知秋、秦朝为化名）

本文来自微信公众号：直面 AI，作者：李炤锋

宙世代

一起剪

相关标签