据有关报道显示,近日在接受采访时,YouTube 首席执行官 Neal Mohan 表示,虽然目前缺乏具体证据证明 OpenAI 是否在使用 YouTube 的视频及相关数据来训练其视频生成模型 Sora,但任何未经许可的这类使用都会违反 YouTube 的服务条款。
Neal Mohan 指出," 从创作者的角度来看,当他们将用心制作的视频上传到我们平台后内心肯定是有所期待的,最基本的期待便是平台的服务条款将对他们的创作内容进行保护。我们平台的规则不允许用户下载未经授权的文本或视频,因此若 Sora 滥用我们平台视频进行训练是明显违反平台规则的行为 "。
在此次采访中,Neal Mohan 还透露谷歌训练自研大模型 Gemini 时使用了 YouTube 上的一些视频内容。但同时他强调," 我们在使用这些内容之前,已经得到了创作者的授权,并遵循了 YouTube 与创作者之间的协议 "。
据了解,此前在 3 月接受采访时,OpenAI 首席技术官 Mira Murati 曾被问及 Sora 训练数据来源等相关问题,但她并未给出明确回应,仅表示 " 我们使用的是公开可用数据和许可数据 "。在被进一步追问具体的数据来源是否包含 YouTube 平台的视频时,Mira Murati 一度表示," 我实际上并不确定(I'm actually not sure about that)"。随后,Mira Murati 拒绝回答有关 Instagram 或 Facebook 的视频内容是否被纳入 Sora 训练集的问题。对此她表示,如果这些视频是公开可用且可以使用的,那么可能会被使用,但她对此并不确定。
此外需要注意的是,日前有报道援引相关报告称,早在 2021 年 OpenAI 方面便面临着训练数据短缺的问题,为此该公司曾讨论转录 YouTube 视频、播客和有声读物的可行性。据称,为获得足够的数据训练大模型 GPT-4,OpenAI 开发了音频转录模型 Whisper,转录了超过 100 万小时的 YouTube 视频。此外,OpenAI 方面还使用了包括来自 Github 的代码、国际象棋数据库相关数据,以及来自 Quizlet 的作业内容等作为训练数据。
这一报告中还指出,OpenAI 方面意识到知道此举在法律上存在风险,但认为这是 " 合理使用 ",且该公司总裁 Greg Brockman 亲自参与了用作训练数据的视频的收集工作。
对此,谷歌发言人 Matt Bryant 回应称," 已看到了有关 OpenAI 活动的未经证实的报告 ",并表示," 我们的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容 "。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦