AI训练数据第一案来了！NVIDIA想靠安全港脱身法官驳回：你那个脚本除了盗版没别的用

快科技 5 月 8 日消息，美国加州北区联邦地区法院作出最新司法裁定，正式驳回英伟达公司要求驳回集体版权诉讼的动议，这起案件被业内称作 AI 训练数据版权第一案。

本次诉讼由多名作者联合发起，核心指控英伟达使用 19.7 万本盗版电子书，通过旗下 NeMo Megatron AI 框架训练大语言模型，侵犯了其合法著作权。

原告方在诉讼文书中明确，英伟达用于模型训练的数据，来自包含 19.7 万本未经授权电子书的 Books3 数据集，该数据集被整合进超 800GB 的开源文本数据集 The Pile 中，最终被接入 NeMo 框架用于相关大模型训练。

英伟达在案件审理过程中，援引美国版权法中互联网服务提供商的 " 安全港 " 保护条款及相关司法判例，主张 NeMo Megatron 是通用 AI 训练工具，具备大量合法非侵权用途，要求法院驳回该起诉讼。

审理该案的法官在裁定中驳回了英伟达的全部抗辩主张，明确本案争议焦点并非 NeMo 框架整体，而是框架内的特定数据处理脚本，这些脚本被指控的唯一目的就是加速侵权过程，与通用开发工具存在本质区别。

另外，NVIDIA 还被指控向 Writer、Persimmon AI Labs、亚马逊等客户分发自动下载 The Pile 的脚本和工具，直接为第三方侵权提供基础设施。

本次裁定生效后，该起集体版权诉讼将正式进入证据开示环节，后续可进入庭审阶段，目前法院尚未公布下次听证会的具体日期。

宙世代