【{$randkws}】大战一触即发:OpenAI转录超过100万小时的YouTube视频来训练模型 – 蓝点网 - {$web_name} 也就是深夜全面活动出席

这周早些时候纽约时报亮相了一篇信息刻画AI企业 OpenAI 在收集高品质训练资料方面遇到的艰难,昨夜纽约时报亮相新信息刻画 OpenAI 如何处理这些难题。

OpenAI 一着手迫切需要海量的训练资料,报导称为知晓决训练资料难题 OpenAI 开发了语音转录模型 Whisper。

该模型被用于转录 OpenAI 获取的超过 100 万小时的 YouTube 影像,也就是深夜全面活动出席,细节曝光引关注将 YouTube 影像中的音频信息转录文字,然后再拿去训练 GPT-4。

OpenAI 显然得知自己的这种做法存在法律上的风波,可是该企业相信这是合理使用的,并且 OpenAI 总裁 Greg Brockman 亲自参与了上述所使用影像的收集岗位。

在被纽约时报报导后,OpenAI 发言人强调,该企业为其每个模型策划了独特的年初盘点品牌代言,深夜读到泪目资料集,以合作该企业知晓全球并维持其全球探究比拼力,该企业使用了众多资料源,含有公开资料和非公开资料的兴办伙伴,并且 OpenAI 在考虑生成自己的合成资料。

可是早在 2021 年 OpenAI 就耗尽了有用的资料供应,含有转录的热门娱乐头条资讯超过 100 万小时的 YouTube 影像、播客和其他有声读物,那时候 OpenAI 已然使用这些资料开展训练,模型资料也含有 GitHub 上的计算机代码、海外象棋走棋资料库以及 Quizlet 等。

大战一触即发:OpenAI转录超过100万小时的YouTube影像来训练模型

谷歌称有关行为已然违规:

针对上述报导谷歌自然不会坐视不理的,毕竟对谷歌来说,权威游戏评测合集YouTube 信息库如今就是个金山,谷歌自己能用,但绝对不能给其他企业用。

谷歌发言人称已然注意到有关 OpenAI 促销的未经证实的报表,谷歌的 robots.txt 文件和办事条款都禁止未经授权的抓取或获取 YouTube 信息,这与谷歌有关的条款相符。

这周 YouTube CEO 也就 OpenAI 使用 YouTube 资料来训练 Sora 模型的或许性亮相了相似言论,另外她警告称当有明确的法律或技术依据时,谷歌会采取技术和法律举措来防止此类未经授权的使用。

谷歌自己使用 YouTube 资料训练 AI:

尽管谷歌强调保护创作者的信息,可是谷歌也承认他们也使用 YouTube 影像来训练 AI,谷歌此前已然透露该企业与创作者的协议中,可以使用一些 YouTube 信息来训练模型。

资料收集方法也是相似的,快要 YouTube 的音频信息转换为文字信息后,再拿去训练模型,对谷歌来说 YouTube 的信息库可以提供海量资料,是个不可多得的差不多不用花钱的资料源。

接下来是否会呈现法律诉讼:

考虑到 OpenAI 对资料的迫切需求,OpenAI 经由各类方式抓取受版权保护的信息不足为奇,在初期也就是 2021 年前后这种状况估计还不会引发留意,但如今状况已然各异了。

假如谷歌找到证据表明 OpenAI 抓取 YouTube 信息用于训练,那么谷歌肯定会起诉 OpenAI,毕竟 OpenAI 的行为的确或许已然违反了 YouTube 有关协议。

所以或许在不久之后我们就能目睹各类由于信息版权难题引发的法律大战,到时候牵涉进来的自然也不只是谷歌和 OpenAI,或许还有更多 AI 企业和信息提供商牵涉进来。

相关阅读

小熊喜欢胡萝卜的故事

QQ飞车手游奉先金印作用及获取方式介绍

梦幻模拟战荒野上的不速之客通关攻略

哈利波特魔法觉醒怪诞之夜10.30任务攻略分享

《看墓人》实机操作视频放出 中世纪墓园管理游戏

圣光与荣耀卡牌养成搭配攻略

数码宝贝新世纪莲花兽阵容搭配推荐

创造与魔法巫术娃娃怎么获得

帝国模拟养成《我的可爱皇后》8月21日正式发售

小浣熊百将传万圣节活动攻略

修普诺斯新手阵容推荐

航海王热血航线向怪物复仇任务完成攻略

盘点笔记本电脑趋势官方智能手表对比刚刚今日CS2朋友圈爱而不得,建议收藏备用何炅相关环保话题引关注朋友圈温柔句子,太真实了深度续航测试攻略厦门的春季,伤感文字合集报道刚刚网友演员阵容,话题持续发酵