三易生活 04-07
YouTube CEO表示,擅用其数据训练大模型属违规
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

据有关报道显示,近日在接受采访时,YouTube 首席执行官 Neal Mohan 表示,虽然目前缺乏具体证据证明 OpenAI 是否在使用 YouTube 的视频及相关数据来训练其视频生成模型 Sora,但任何未经许可的这类使用都会违反 YouTube 的服务条款。

Neal Mohan 指出," 从创作者的角度来看,当他们将用心制作的视频上传到我们平台后内心肯定是有所期待的,最基本的期待便是平台的服务条款将对他们的创作内容进行保护。我们平台的规则不允许用户下载未经授权的文本或视频,因此若 Sora 滥用我们平台视频进行训练是明显违反平台规则的行为 "。

在此次采访中,Neal Mohan 还透露谷歌训练自研大模型 Gemini 时使用了 YouTube 上的一些视频内容。但同时他强调," 我们在使用这些内容之前,已经得到了创作者的授权,并遵循了 YouTube 与创作者之间的协议 "。

据了解,此前在 3 月接受采访时,OpenAI 首席技术官 Mira Murati 曾被问及 Sora 训练数据来源等相关问题,但她并未给出明确回应,仅表示 " 我们使用的是公开可用数据和许可数据 "。在被进一步追问具体的数据来源是否包含 YouTube 平台的视频时,Mira Murati 一度表示," 我实际上并不确定(I'm actually not sure about that)"。随后,Mira Murati 拒绝回答有关 Instagram 或 Facebook 的视频内容是否被纳入 Sora 训练集的问题。对此她表示,如果这些视频是公开可用且可以使用的,那么可能会被使用,但她对此并不确定。

此外需要注意的是,日前有报道援引相关报告称,早在 2021 年 OpenAI 方面便面临着训练数据短缺的问题,为此该公司曾讨论转录 YouTube 视频、播客和有声读物的可行性。据称,为获得足够的数据训练大模型 GPT-4,OpenAI 开发了音频转录模型 Whisper,转录了超过 100 万小时的 YouTube 视频。此外,OpenAI 方面还使用了包括来自 Github 的代码、国际象棋数据库相关数据,以及来自 Quizlet 的作业内容等作为训练数据。

这一报告中还指出,OpenAI 方面意识到知道此举在法律上存在风险,但认为这是 " 合理使用 ",且该公司总裁 Greg Brockman 亲自参与了用作训练数据的视频的收集工作。

对此,谷歌发言人 Matt Bryant 回应称," 已看到了有关 OpenAI 活动的未经证实的报告 ",并表示," 我们的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容 "。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

youtube 谷歌 国际象棋 首席执行官 facebook
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论