近期,OpenAI被曝出正利用YouTube的丰富影音资源来强化GPT系列模型,这一举措不禁让人发问:难道文字素材已不足以支撑语言模型的发展了吗?YouTube是否将变为GPT-4的新「粮仓」?对此,Google如何看待呢?
据悉,为了满足AI训练的需求,OpenAI将目光投向了YouTube。据《纽约时报》报道,OpenAI在语言模型训练上的素材需求激增,而网络上的文字内容已无法满足其需求。为此,OpenAI运用语音转文字工具「Whisper」将100万小时的YouTube影片内容转录成文字,用于训练GPT-4。
Google发言人马特・布莱恩(Matt Bryant)表示,他对OpenAI的这一做法并不了解,并强调禁止「未经授权抓取或下载YouTube内容」。YouTube执行长尼尔.莫汉(Neal Mohan)在接受《彭博社》采访时也表示,目前尚未发现OpenAI违规使用YouTube影音内容的证据,但若属实,则确实违反了YouTube平台的使用条款。
尼尔.莫汉指出:「从影片创作者的角度来看,他们把辛苦创作的作品上传到YouTube,自然是希望得到服务条款的保障。而服务条款明确规定,不允许下载文字记录或影片片段内容等。这种使用YouTube影音内容来训练模型的做法显然违反了服务条款。」
尽管目前还不能证实OpenAI是否真的利用YouTube来训练AI模型,但这一做法似乎并不令人意外。
为何OpenAI、Meta、Google等科技巨头需要如此庞大的数据量呢?约翰霍普金斯大学(Johns Hopkins University)理论物理学家贾里德.卡普兰尼(Jared Kaplany)在2020年发表的论文指出,语言模型读取的资料越多,效能就越好。
换言之,开发大型语言模型(LLM)的关键在于为AI模型提供海量的资料。据《彭博社》报道,随着OpenAI、Google等公司竞相研发更加强大的人工智能,他们正在寻求更多的资料内容来训练他们的AI模型,以期获得更好的品质。
研究机构Epoch指出,AI公司使用数据的速度比生成数据的速度还要快。Meta内部资料显示,Meta生成式AI副总裁艾哈迈德.达赫勒(Ahmad Al-Dahle)表示,「除非获得更多数据,否则Meta无法追赶上OpenAI。」
为了获取大量数据,科技巨头们正在修改服务条款。据《纽约时报》报道,2023年Google曾要求隐私权管理部门扩大使用服务条款,以允许Google利用公开的Google文件、Google地图上的餐厅评论等来训练开发中的AI语言模型。Meta也于2023年讨论收购出版社Simon & Schuster(美国六大出版商之一),以获取长篇作品,并探讨从网络上搜集受版权保护的内容。
而Google也表示,其语言模型使用了「部分YouTube影音内容」进行训练,并取得了影片创作者的许可。Meta也表示,已经「积极投资」将AI整合到Instagram和Facebook的服务中,并且取得了数10亿的公开共享图像和影音来训练模型。
据《纽约时报》报道,目前AI使用网络上的资料训练,已经使用超过3兆字,大约是牛津大学博德利图书馆(英国第二大的图书馆)的藏书文字的2倍。
在科技巨头们对数据无限需求的同时,许多创作者对版权问题产生了疑虑,甚至引发了诉讼。据《纽约时报》报道,去年,《纽约时报》起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练语言模型。OpenAI和微软则表示,使用这些文章是「合理使用」,是版权法所允许的。
为了解决数据不足的问题,许多语言模型公司正在开发人工智慧生成的文本(合成数据)来训练AI语言模型,以期减少对版权资料的依赖,并开发出更好的AI模型版本,以提升竞争优势。
然而,合成数据的使用仍存在争议。使用合成数据来训练语言模型可能加剧语言模型的偏见和错误,OpenAI的研发人员表示,这种方法可能会导致语言模型的故障。因此,语言模型公司仍在尝试其他新的方法。
在找到更好的方法之前,想必各家科技巨头还会持续寻求获取数据的方式。换句话说,在「数据量大等于好」的前提没有破解前,数据战争还将持续下去。
标签: 比特币挖矿