仅从欧美已有的案例来看,我们甚至可以套用一句宋丹丹在小品里的名言:“没有被起诉的大模型,算不上知名大模型”,最近meta也毫无意外的因为使用版权数据训练模型被起诉到法院,而这次备受瞩目的案件牵扯出了此前不太为国内熟知的“开源数据集”books3,笔者查阅了books3相关的资料,进一步发现了更大的数据集pile(books3是其一部分),所以我们以此为契机,拆解展示一下这种专门用于训练大模型的数据集的真实情况,进而讨论一下由此引发的几个关键性的法律问题。
books3这次进入大众的视野,是因为meta将其作为大模型训练数据集引发作者不满和起诉开始的。那么books3到底是啥呢?
关于books3,追踪人工智能道德滥用相关事件的人工智能算法和自动化事件和争议数据库AIAAIC:(
https://www.aiaaic.org/aiaaic-repository/ai-algorithmic-and-automation-incidents/books3-ai-training-dataset
)的介绍如下:
其中几个关键信息表明,books3是一个专用于训练语言模型的开源数据集,包含了近20万本文本形式的书籍,其作为另一个更大的开源数据集Pile的组成部分,2023年8月,books3由于反盗版组织权利联盟(anti-piracy group the Rights Alliance)的投诉从pile中移除,但在网络上仍然广泛流传。
发现Pile是EleutherAI发布的一个开源的英文预训练语料库,涵盖22个不同的数据子集以及14个新增数据集,其中就包括了Books3。
接着我们找到pile数据库的位置,发现了其数据的目录和地址:
进入到其中books(并非books3)查看具体数据,可以看到大量的电子数据可供下载:
我们从中随机挑选了一个作品内容,可以直接下载到电脑上打开查看:
也难怪Rights Alliance来投诉了(事件的详细过程请见:
https://rettighedsalliancen.com/rights-alliance-removes-the-illegal-books3-dataset-used-to-train-artificial-intelligence/
),显然pile和books3应该并未取得所有作者的授权,就将其版权内容做了归集并通过网络提供,这个行为从国内的法律规定来看,甚至可能有刑事风险,而books3的创建者Shawn presser 作为知名开源AI支持者甚至为此做好了坐牢的准备。
对于books3 所在的更大数据集pile,目前笔者并未发现其直接相关知识产权规则或者开源许可证,只有一个“出处”的代码声明,要求使用pile时将如下代码引入:
但pile本身又托管在另一家叫做eye的公开数据托管网站(
https://the-eye.eu/
),这个站点提供了一个DMCA的投诉声明页面,其他没有找到更多关于第三方版权保护方面的规则,整体看上去这个开源语料库的架构仍显松散和随意,很显然这样的语料库在给模型训练提供了诸多便利的同时,也面临着非常大的侵权风险。
特别是欧盟的《人工智能示范法》已经对大模型提供者提出了披露训练语料的要求之后,这样的语料库会更大程度的曝光在公众和权利人的审视之下,如果其中的内容出现大规模的版权瑕疵,就会给大模型的训练者带来麻烦,meta目前碰到的正是这个问题。
我们发现meta面临的不只是来自版权方的压力,作为books3项目的创建者(developer)的Shawn曾基于meta发布的LLaMA模型的权重(weight)参数在Github平台创建了LLaMa-dl项目,Meta随即向Github发起投诉,认为Shawwn侵犯了Meta版权,要求Github删除该项目,对此,Shawn一方面递交了反通知给平台为自己辩护,另一方面在媒体平台上多次表态准备就此事起诉Meta,理由是他坚持认为大模型的权重参数是机器借助算法从数据中提炼出来的,并不具有任何人类的独创性,不能给予版权保护。
从他在媒体上连续发文能看出他对这个问题是有一定的专业理解和思考的。
这个事件看上去似乎已经略微带着点私人恩怨的味道了。本来meta用了shawn创建的books3数据集做训练,但shawn用了训练好的LLaMA模型去做开源项目却遭到了meta的投诉,所以shawn找到了一个非常凌厉的进攻角度:模型参数。
这个案件如果真正启动的话,shawn有可能赢吗?我个人觉得有可能,如果我们对大模型的权重参数技术原理有一定了解的话,就应该发现这些参数似乎是机器学习过程中对客观世界的印象和映射,如果主张对模型参数享有著作权是有一定难度的,这给广大的大模型公司都敲响了一个警钟。当然,模型参数如果无法得到版权保护,商业秘密仍然可以主张。
说回到meta被books3版权方集体起诉的案子,meta在媒体上表达了自己的态度,他们承认使用了版权作品进行模型训练,但不认为这是一种侵权行为而应该被认定为合理使用,无需获得许可、署名或支付补偿。更具体的,meta提出一个观点认为机器学习跟人类的学习一样,没有法律可以限制人类通过现有的版权作品进行自我学习,同样的规则也应该适用在机器身上。更早之前《纽约时报》也曾因为OpenAI和微软使用其文章训练聊天机器人ChatGPT而对其提起诉讼,OpenAI同样提出抗辩认为不使用受版权保护的材料来训练AI模型几乎是不可能的,要求法院驳回相关诉讼。
meta的抗辩能否站住脚呢?笔者认为存在一定难度,机器学习和人类学习之间有一定的差异,机器学习无论是在规模、速度还是学习完毕之后的替代性效果上都远超人类个体,所以对于已有智力成果的作者的影响是更大的,这也是为什么美国已经出现大量的作者和团体发起维权行动的原因吧。
从长远角度看,笔者首先支持大模型技术通过预训练的方式发展,这是人工智能目前取得突破的主要路径,国内也有不少人提出“不发展才是真正的不安全”的观点。但与此同时,笔者仍然认为发展的前提是“可持续性”,要遵循基本的经济规律,如果大模型是以大量吸收现有智力成果并且学成之后把这些成果的贡献者“替代”掉的方式发展,最终很难说实现了“帕累托改进”,从而无法实现可持续性,因为“公开语料”应该已经被学的差不多了,接下来是更多私有领域的语料,而一旦语料的贡献者(版权方)无法从人工智能产业中获益,他们便没有了继续创作和公开语料的动力,届时大模型语料将成为“无源之水”。这个问题不论站在哪一方的角度看都是客观存在的,所以大模型公司也不应该认为司法做出对现有语料学习属于“合理使用”的认定就是好事,根本的解决方案还是想出一个“双赢”的机制,缓解人和机器之间的紧张关系。
关于这一点,重视版权的美国已经有了很明显的趋势,根据美国作家协会的调查,90% 的作家认为,作家应该获得对其作品用于训练生成式人工智能的补偿,65% 的作家支持建立一个集体授权制度,以补偿作者的作品被用于训练生成式 AI。此外,69% 的作家认为他们的职业受到生成式 AI 的威胁,70% 的作家认为出版商将开始使用 AI 来完全或部分生成书籍,取代人类作者。此外,超一万名作家已经在敦促 AI 公司停止未经许可使用其作品,他们不希望 AI 模仿其作品并学会写作,除非科技公司为此付费。美国的作家协会也已经向巨头们发了一封公开信,要求他们停止未经许可使用他们的作品,或对使用作品进行补偿,签署的作家名单长达 100 多页。
不只是美国和欧洲,我国因为模型数据训练的诉讼案件和争议事件也已经陆续见诸报端,笔者也在代理相关案件正在法院的审理中,我们同样注意到国内学者提出的《人工智能发学者建议稿》第二十四条中对于机器使用版权内容进行训练的“数据合理使用”制度的描述是“该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理的损害数据权利人的合法权益”,很显然,学者已经敏锐的注意到了数据训练合理使用是需要满足一定条件的,要尽可能降低对数据贡献者的不利影响。
可见,AI公司如果无法找到一个照顾到版权方利益的解决方案的话,围绕模型训练引发的争议会越来越多,激烈程度也会越来越高,就像前面文章中提到的那位Shawn一样,他们可能寻求除了版权以外,包括模型参数不具有版权性这种新的反制路径,而司法真的有可能为了技术不顾智力贡献者的利益吗,不管是哪个国家,恐怕都要考虑“科技向善”和“以人为本”的大原则吧。
总之,人机之间除了协作,恐怕还会因为机器学习和机器替代引发大量的纷争,这种紧张关系日渐激烈,正在进入到中场战事的阶段,考验着所有的参与者和裁判者的智慧。
作者诚邀
首届网络法实物成果展示大会
参展作品持续征集中...
请点击下方图片,获取完整参展信息
9月21号,北京,一起做一次精神上的“河洛族”