虎嗅APP 06-06
斯坦福大学“急了”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

6 月 4 日消息,斯坦福大学 AI 团队反过来学习国内 AI 明星公司面壁智能的开源成果 MiniCPM 模型,激起了 HuggingFace 社区网友的广泛讨论,话题主要集中在:斯坦福大学 AI 团队涉嫌抄袭。

这并不是中国的大模型第一次在国外被抄袭。但此次事涉斯坦福大学这样的知名机构,在引发关注的同时,也暴露出 AI 领域知识产权保护和学术诚信问题。

更值得深思的是,为何 MiniCPM 模型吸引了斯坦福的眼球?这是否意味着国内大模型 " 出圈 " 了?

此次事件开始于斯坦福团队声称以不到 500 美元(约等于人民币 3650 元)的成本就能训练出一个性能超越 GPT-4V 的 SOTA 多模态大模型。这一声明迅速吸引了广泛关注,但不久后,社区内开始出现对 Llama3-V 的质疑声,指责其抄袭了面壁智能的 MiniCPM-Llama3-V 2.5。

网友 Magic Yang 发现 Llama3-V 项目中有大量与 MiniCPM-Llama3-V 2.5 雷同的内容,包括模型结构和配置文件高度相似,只是变量名不同。

除了社区网友列出的证据外,经面壁智能团队核实,Llama3-V 不但能够与 MiniCPM 一样识别出 " 清华简 " 战国古文字,并且两个模型连做错的样例都一模一样。而这项成果来自面壁智能团队对浩如烟海的清华简逐字扫描,再一个一个地进行数据标注,经历了数个月的努力,才融合进模型中的,这进一步证实了 Llama3-V 模型的抄袭行为。

MiniCPM 模型到底有什么魔力?

今年 2 月,面壁智能发布了 20 亿参数的开源端侧模型 MiniCPM,在多个主流评测榜单中,该模型中英文分均超过 Mistral-7B 开源模型,甚至优于 Llama 2-13B。

这个名为 MiniCPM 的开源模型的价值增长点在哪?

3 月 31 日,虎嗅科技组主办的 "2024 AI 内参会 " 上,邀请到了面壁智能 CTO 曾国洋,极客邦科技副总裁、TGO 鲲鹏会总经理杨攀做客。与会者就曾对开源模型的价值提出疑问,即相比其他增量模型,这个模型有什么优势呢?

在内参会上,曾国洋给出的答案是这样:它是一个 " 更高效的模型 ",就是在有限的资源内去把模型做得更好。

" 如果简单地将模型参数规模做大的话,它确实会随着 scaling law 出现效果的提升,但它单一维度的提升是低效的。我们在研究出一个更优化的方法之后,其实是可以随着参数扩大,让模型爆发出一种更明显地增长。" 曾国洋说。

也就是说,研发人员可以通过它在固定资源预算中,如额定的 GPU 数量、训练数据量或是训练时长下,匹配模型的最佳大小,且无需经历昂贵的试错。这无疑从很大程度上提高了研发效率,我们猜测,这或许就是开源模型 Llama3-V 反被抄袭的原因所在。

对此事,面壁智能 CEO 李大海表示遗憾,并呼吁共建开放、合作、有信任的社区环境。

目前,Llama3-V 模型已从 Hugging Face 等开源平台上下架。在社交媒体上,Llama3-V 团队的两位作者森德哈斯 · 沙玛(Siddharth Sharma)和阿克沙 · 加格(Aksh Garg)正式向 MiniCPM 团队道歉。

斯坦福大学是世界顶尖的学术机构之一,此次事件使其声誉面临拷问,尤其是在 AI 研究领域,未来的学术成果的审查想必会更加严格。

相应地,面壁智能因祸得福,在国际关注度陡增的背景下,其商业价值也在聚光灯下无限放大,也就意味着更多合作伙伴和投资者。而 AI 领域的知识产权保护和学术诚信问题则任重道远。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

斯坦福大学 ai 开源 抄袭 清华
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论