科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列

IT之家 7 月 16 日消息，据 Wired 报道，包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意，就使用了他们视频的字幕文件来训练人工智能模型。

IT之家注意到，此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。

调查记者披露，一些世界上最富有的科技公司一直在利用来自成千上万个 YouTube 视频的素材来训练 AI，而这违反了 YouTube 禁止从平台上未经许可抓取内容的规定。据悉，超过 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用来训练人工智能模型，其中就包括苹果、英伟达、Salesforce 等硅谷巨头。

据报道，下载这些字幕文件的是一个名为 EleutherAI 的非盈利组织，他们声称其目的是帮助开发者训练 AI 模型。虽然 EleutherAI 的初衷可能是为小型开发者和学术研究者提供训练材料，但该数据集也被苹果等科技巨头使用。

根据 EleutherAI 发布的一篇研究论文，这份数据集是他们发布的名为“The Pile”的大型数据集的一部分。“The Pile”中的大部分数据集都是公开的，任何拥有足够存储空间和计算能力的人都可以访问。除了科技巨头之外，一些学者和开发者也使用了该数据集。然而，苹果、英伟达和 Salesforce 等市值数百亿甚至数千亿美元的公司也在他们的研究论文和帖子中提到了他们如何使用该数据集来训练 AI 模型。

有文件显示，苹果在 4 月份发布了备受关注的 OpenELM 模型几周之前，就使用了“The Pile”进行训练。而 OpenELM 模型的发布恰逢苹果宣布将在 iPhone 和 Macbook 中加入新的 AI 功能。

需要注意的是，苹果自己并没有下载这些数据，而是由 EleutherAI 完成的。因此，从技术层面来说，是 EleutherAI 违反了 YouTube 的使用条款。

尽管苹果和其他公司可能使用了公开的数据集，但此事件凸显了从网络上抓取数据来训练 AI 系统所带来的法律风险。此前就曾出现过 AI 系统在回答小众话题时抄袭整段文本的案例，当公司使用第三方编译的数据集时，只会增加未经许可使用素材的风险。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列

友情提示

开始加速撤离？又一大厂索尼宣布退出，德媒：灾难性决定！

深夜炸裂！小米SU7Ultra定价，81.49万！雷军：地表最快！

拉黑大陆7纳米以上所有芯片代工，台积电陷入风口浪尖！

美股三大指数收盘均涨超1%英伟达重新成为全球市值最高的公司

尴尬的一幕出现：高通发布3nm芯片，几乎所有国产手机，都去站台

从Mag7财报，我看到英伟达的业绩可能被透支了

儿子月薪8000，偷偷给父母300，媳妇得知后将公婆扫地出门。

大爷这操作是真虎！黑龙江野生老虎进村完整视频！

大姐回乡下老家定居，结果刚进院子就懵了，清理出来后傻眼了

故宫开门前为什么要大喊三声？#方言

传递爱国正能量，从我做起，刘老师好样的！

泪目！这段可以封神了，从来没有怀疑过影帝的实力。#好剧推荐

因严重的心理问题多名以士兵自杀

专家：A股下一个重要时间窗口临近

王楚钦夺冠后张开双臂庆祝

36岁梁洛施恋情疑曝光，与大9岁马浴柯手牵手，曾力挺男方电影

不做大哥好多年，又无利益冲突，英国为何成为反俄急先锋？

以北部边境城市接连响起防空警报