YouTube视频成AI训练数据源?OpenAI与Meta面临法律挑战
【HowToTech科技】4月7日消息,近日,有关AI公司在收集训练数据方面所面临的挑战引发了广泛关注。据《华尔街日报》本周早些时候的报道,AI企业正努力应对高质量训练数据收集的难题。而今日,《纽约时报》深入探讨了这些企业为解决此问题所采取的策略,其中一些做法牵涉到AI版权法的模糊地带。
据报道,为了获取训练数据,领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该公司利用这一模型转录了超过100万小时的YouTube视频,以便训练其最新的大型语言模型GPT-4。OpenAI在2021年就已经耗尽了可用的数据资源,并在探讨利用YouTube视频、播客和有声读物等资源的可行性后,决定采用这种方法。此外,OpenAI还整合了包括Github的计算机代码、国际象棋走棋数据以及来自Quizlet的学习资料等多种数据源。
据HowToTech科技了解,尽管OpenAI意识到这种做法在法律上存在争议,但他们认为这属于合理使用范围。《泰晤士报》披露,OpenAI的总裁Greg
Brockman甚至亲自参与了视频的收集工作。OpenAI的发言人Lindsay
Held向媒体表示,公司为每个模型都策划了独特的数据集,旨在帮助其更好地了解世界,并维持其在全球研究领域的竞争力。Held还提到,公司使用了众多数据来源,并正在考虑生成自家的合成数据。
然而,这一做法并未得到所有相关方的认可。谷歌发言人Matt
Bryant指出,他们注意到了有关OpenAI活动的报告,并重申其robots.txt文件和服务条款都明确禁止未经授权的YouTube内容抓取或下载。YouTube首席执行官Neal
Mohan也在近日的采访中表示,尽管没有直接证据表明OpenAI使用YouTube视频来训练其AI模型,但此类行为确实违反了YouTube的服务条款。
同样面临数据可用性限制的还有meta公司。在《泰晤士报》披露的录音中,meta的AI团队为了追赶OpenAI,讨论了未经许可使用版权作品的可能性。该团队在考虑了互联网上几乎所有可用的英语书籍、散文、诗歌和新闻文章后,提出了诸如支付图书许可费,甚至收购大型出版商等解决方案。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...