斯坦福大学“急了”

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

6 月 4 日消息，斯坦福大学 AI 团队反过来学习国内 AI 明星公司面壁智能的开源成果 MiniCPM 模型，激起了 HuggingFace 社区网友的广泛讨论，话题主要集中在：斯坦福大学 AI 团队涉嫌抄袭。

这并不是中国的大模型第一次在国外被抄袭。但此次事涉斯坦福大学这样的知名机构，在引发关注的同时，也暴露出 AI 领域知识产权保护和学术诚信问题。

更值得深思的是，为何 MiniCPM 模型吸引了斯坦福的眼球？这是否意味着国内大模型 " 出圈 " 了？

此次事件开始于斯坦福团队声称以不到 500 美元（约等于人民币 3650 元）的成本就能训练出一个性能超越 GPT-4V 的 SOTA 多模态大模型。这一声明迅速吸引了广泛关注，但不久后，社区内开始出现对 Llama3-V 的质疑声，指责其抄袭了面壁智能的 MiniCPM-Llama3-V 2.5。

网友 Magic Yang 发现 Llama3-V 项目中有大量与 MiniCPM-Llama3-V 2.5 雷同的内容，包括模型结构和配置文件高度相似，只是变量名不同。

除了社区网友列出的证据外，经面壁智能团队核实，Llama3-V 不但能够与 MiniCPM 一样识别出 " 清华简 " 战国古文字，并且两个模型连做错的样例都一模一样。而这项成果来自面壁智能团队对浩如烟海的清华简逐字扫描，再一个一个地进行数据标注，经历了数个月的努力，才融合进模型中的，这进一步证实了 Llama3-V 模型的抄袭行为。

MiniCPM 模型到底有什么魔力？

今年 2 月，面壁智能发布了 20 亿参数的开源端侧模型 MiniCPM，在多个主流评测榜单中，该模型中英文分均超过 Mistral-7B 开源模型，甚至优于 Llama 2-13B。

这个名为 MiniCPM 的开源模型的价值增长点在哪？

3 月 31 日，虎嗅科技组主办的 "2024 AI 内参会 " 上，邀请到了面壁智能 CTO 曾国洋，极客邦科技副总裁、TGO 鲲鹏会总经理杨攀做客。与会者就曾对开源模型的价值提出疑问，即相比其他增量模型，这个模型有什么优势呢？

在内参会上，曾国洋给出的答案是这样：它是一个 " 更高效的模型 "，就是在有限的资源内去把模型做得更好。

" 如果简单地将模型参数规模做大的话，它确实会随着 scaling law 出现效果的提升，但它单一维度的提升是低效的。我们在研究出一个更优化的方法之后，其实是可以随着参数扩大，让模型爆发出一种更明显地增长。" 曾国洋说。

也就是说，研发人员可以通过它在固定资源预算中，如额定的 GPU 数量、训练数据量或是训练时长下，匹配模型的最佳大小，且无需经历昂贵的试错。这无疑从很大程度上提高了研发效率，我们猜测，这或许就是开源模型 Llama3-V 反被抄袭的原因所在。

对此事，面壁智能 CEO 李大海表示遗憾，并呼吁共建开放、合作、有信任的社区环境。

目前，Llama3-V 模型已从 Hugging Face 等开源平台上下架。在社交媒体上，Llama3-V 团队的两位作者森德哈斯 · 沙玛（Siddharth Sharma）和阿克沙 · 加格（Aksh Garg）正式向 MiniCPM 团队道歉。

斯坦福大学是世界顶尖的学术机构之一，此次事件使其声誉面临拷问，尤其是在 AI 研究领域，未来的学术成果的审查想必会更加严格。

相应地，面壁智能因祸得福，在国际关注度陡增的背景下，其商业价值也在聚光灯下无限放大，也就意味着更多合作伙伴和投资者。而 AI 领域的知识产权保护和学术诚信问题则任重道远。

宙世代

智慧云

相关标签