YouTube视频成AI训练数据源？OpenAI与Meta面临法律挑战

科技前沿 2024-04-16 大鱼手机阅读

【HowToTech科技】4月7日消息，近日，有关AI公司在收集训练数据方面所面临的挑战引发了广泛关注。据《华尔街日报》本周早些时候的报道，AI企业正努力应对高质量训练数据收集的难题。而今日，《纽约时报》深入探讨了这些企业为解决此问题所采取的策略，其中一些做法牵涉到AI版权法的模糊地带。

据报道，为了获取训练数据，领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该公司利用这一模型转录了超过100万小时的YouTube视频，以便训练其最新的大型语言模型GPT-4。OpenAI在2021年就已经耗尽了可用的数据资源，并在探讨利用YouTube视频、播客和有声读物等资源的可行性后，决定采用这种方法。此外，OpenAI还整合了包括Github的计算机代码、国际象棋走棋数据以及来自Quizlet的学习资料等多种数据源。

据HowToTech科技了解，尽管OpenAI意识到这种做法在法律上存在争议，但他们认为这属于合理使用范围。《泰晤士报》披露，OpenAI的总裁Greg
Brockman甚至亲自参与了视频的收集工作。OpenAI的发言人Lindsay
Held向媒体表示，公司为每个模型都策划了独特的数据集，旨在帮助其更好地了解世界，并维持其在全球研究领域的竞争力。Held还提到，公司使用了众多数据来源，并正在考虑生成自家的合成数据。

然而，这一做法并未得到所有相关方的认可。谷歌发言人Matt
Bryant指出，他们注意到了有关OpenAI活动的报告，并重申其robots.txt文件和服务条款都明确禁止未经授权的YouTube内容抓取或下载。YouTube首席执行官Neal
Mohan也在近日的采访中表示，尽管没有直接证据表明OpenAI使用YouTube视频来训练其AI模型，但此类行为确实违反了YouTube的服务条款。

同样面临数据可用性限制的还有meta公司。在《泰晤士报》披露的录音中，meta的AI团队为了追赶OpenAI，讨论了未经许可使用版权作品的可能性。该团队在考虑了互联网上几乎所有可用的英语书籍、散文、诗歌和新闻文章后，提出了诸如支付图书许可费，甚至收购大型出版商等解决方案。