编辑丨兰意维 明珂 吴梓聪 钟坤洋
【本文看点】
2024年10月1日,以克里斯托弗·法斯沃斯(
Christopher Farswnorth
)为代表的作家集体在美国加利福尼亚州北区法院对
Meta Platforms, Inc.
(以下简称“Meta”)提起集体诉讼,
指控
该公司非法复制和使用受版权保护的书籍来训练其大型语言模型(LLMs)
,侵犯了作者的版权。
这是针对生成式 AI 开发者提起的一系列版权侵权诉讼中的新案件,该
原告律师与在Authors Guild v. OpenAI和Bartz v. Anthropic案件中的原告律师重叠
。
该文章以机翻为主,辅之以人工微调。受限于篇幅,本文仅展示部分核心内容,如需获取全文翻译PDF文件,请在本公众号后台回复“
作家集体诉Meta
”(不含双引号),供各位读者参考。
【主要内容】
一、Meta公司非法使用版权作品来训练和开发LLMs
Meta公司窃取了数十万本受版权保护的盗版书籍,用于开发一种名为“大型语言模型”(LLMs)的商业产品。这种行为无视了版权持有者对其作品享有专有权的基本原则以及联邦法律。原告Christopher Farnsworth是一位畅销小说作家,他根据《版权法》提起集体诉讼,以纠正Meta公司的侵权行为对他和其他作者造成的伤害。Meta公司在未经授权的情况下利用原告的作品,对作品进行非法复制,然后将这些作品复制到其LLMs中,目的是为了提高其LLMs语言输出的质量,从而获得更理想、更有利可图的LLMs产品。
Meta公司称其LLMs为"Llama"。Llama的输出质量取决于输入数据的质量,
Meta知道向Llama输送的高质量长篇文本越多,Llama的商业表现就越好
。因此,Llama就是它所吸收的内容。Meta在其开发工作、预训练和训练数据中故意包含原告受版权保护的文学作品的未经授权和盗版副本,在未经同意或任何形式补偿的情况下利用了作者的文学才能。
二、原告对Meta的事实指控部分
(一) Meta 公司对 Llama 的开发和商业化
Meta公司成立于2004年,是一家社交媒体公司,当时名为Facebook公司。在过去的20年里,Meta公司迅速发展壮大,其技术服务也日趋多样化。目前,
Meta的市值超过1.4万亿美元
,跻身全球十大最有价值公司之列。Meta通过在
Facebook、Instagram和WhatsApp等旗舰平台
上销售广告和服务赚取数十亿美元。
2022年11月
,OpenAI发布了ChatGPT,引起了消费者的热烈反响,此后,世界上许多最大的技术公司都加快了对商用LLMs的研究和开发。ChatGPT由一个LLMs提供支持,它能够对人们的询问做出不可思议的类人回应。
2023年2月
,Meta开发并发布了一组基础LLMs,并将其称为LLaMA,作为其商业生成式人工智能开发计划的一部分。这些LLM后来更名为Llama 1。Meta最初发布的Llama 1用于非商业研究用途。不到5个月后,即2023年7月,Meta发布了Llama 2,这次是“根据许可的商业许可证提供”。据Meta公司报告,
截至2023年9月27日,用户已经下载了超过3000万份基于Llama的模型
。
2024年4月18日
,Meta在Llama 1和2的基础上发布了Llama 3。在商业发布时,Meta将Llama 3称作其新的消费者服务Meta AI的动力,"世界领先的人工智能助手之一"。Meta公司承认正在使用其LLMs来增强其当前的商业产品,而且据了解,
Meta公司正在开发由Llama 3驱动的高级付费订阅版人工智能助理服务。
(二)Meta 使用盗用的版权材料开发商业人工智能模型
1、大型语言模型和训练过程
有争议的是一种被称为大型语言模型或LLMs的人工智能模型。LLMs的设计目的是模仿人类使用语言。
LLMs能够通过处理输入文本("提示")和根据这些提示生成输出文本来模拟人类语言的模式,即确定什么词接什么词。
从高层次上讲,LLMs是一种算法,旨在通过一种称为"训练"的过程,以数学方式提炼书面作品中单词之间的关系。当一个模型通过消化越来越多的书面作品进行训练时,提炼出各种词块之间关系的算法也会随之改变。然后,模型会在整个训练材料语料库中重复同样的循环数百万次,甚至数十亿次,每次都会调整算法以反映语料库中的文本输入。这就是所谓的"预训练"过程,它是创建LLMs模型"基础"的基础,以后可以对其进行"微调",以获得更具体的结果。
从字面意义上讲,模型就是它所摄取的东西:没有对材料的训练,就没有LLMs。
训练语料库的质量和数量对于最终模型的质量至关重要。
书籍对于LLMs的训练和发展是特别宝贵的训练材料。
2、Meta 复制了大量盗版书籍来训练其 Llama 模型
Meta在公开披露的信息中承认,它未经授权复制和故意复制了近20万本盗版图书,以推进其商业人工智能训练和开发项目。但Meta之前披露的信息证实,
Meta在未经包括原告在内的注册版权所有者授权的情况下,下载并复制了名为"The Pile"的文本数据集,作为其LLM训练和开发工作的一部分
。
The Pile是一个800 GB的开源数据集,用于训练大型语言模型。Meta下载The Pile时,该数据集由一家名为EleutherAI的非营利组织托管并在网上公开提供。The Pile的设计者之一是一位名叫肖恩·普雷塞尔(Shawn Presser)的独立开发者。Presser创建了一个包含在The Pile中的名为"Books3"的数据集,这是一个盗版书籍的宝库。
Presser解释说,他创建Books3是为了回应"OpenAI关于GPT-2和3的论文",其中"提到了名为'all of libgen'"。LibGen指的是"Library Genesis",这是一个提供盗版图书的网站。为了创建一个与他怀疑OpenAI为自己创建的盗版图书数据集相媲美的数据集,Presser宣布Books3是直接从一个名为"bibliotik"的不同盗版网站下载的所有"196,640本图书"。
Bibliotik是"盗版图书"的"臭名昭著的盗版合集",在被用作"Books3"之前的几年里,Bibliotik经常被列入最佳--最受欢迎--盗版图书来源的综述中。Books3是The Pile的重要组成部分。EleutherAI在关于The Pile的论文中解释了Books3作为训练材料的关键价值。
Presser和EleutherAI多次公开承认,The Pile和Books3是盗版资料的缓存。2023年8月,由于版权投诉,Books3被从"The Pile"的"最官方"版本中删除,该版本由在线培训数据集库"The Eye"托管。尽管如此,原始版本仍可从其他来源获得,成为The Pile的一部分。在2023年2月27日的研究论文中,
Meta承认故意下载和复制Books3,作为其Llama开发项目的一部分。
在提及所使用的Books3数据集时,Meta的研究人员:(1)直接引用了2020年EleutherAI的论文(由Leo Gao撰写),该论文将Books3描述为"从Bibliotik私人跟踪器内容副本中提取的图书数据集";(2)区分了古腾堡数据集中的公有领域图书和Books3数据集中的公开图书(即未经授权的盗版图书)。Meta知道Books3是一个从Bibliotik等盗版网站获取版权内容的宝库,但还是使用了它。
在2022年6月发表的研究论文中,Meta删除了包含版权材料的数据集。
Meta公司本可以合法购买书籍,然后通过谈判获得复制许可,而不是故意下载和复制臭名昭著的盗版资料。