本文是关于美国特拉华州联邦地区法院裁决的一起版权侵权案件,涉及汤森路透集团起诉Ross intelligence公司使用法律数据库Westlaw的摘要数据训练人工智能系统。文章主要讨论了以下三个关键点:1. 法院如何裁定合理使用原则;2. Westlaw数据库的内容是否属于版权保护;3. 人工智能与版权的问题。
法院在考虑四个因素后,裁定汤森路透在合理使用抗辩上胜诉。尤其是因素四,即Ross试图通过开发市场替代品来与Westlaw竞争,被认为是重要的决定性因素。
文章讨论了Westlaw数据库的内容,包括原始公开的法律材料和Westlaw创建的摘要和编号系统,是否属于版权保护的具有创造性的表达。法院在认定摘要和编号系统具有原创性时,使用了“原创性门槛极低,仅需一定程度的创造性火花”这一标准。
文章通过此案引发了对人工智能与版权边界的讨论,特别是在数据处理方面。以汤森路透的专利数据库为例,讨论了当AI参与到数据的处理中,如何认定版权,甚至当AI完全替代人工时,这部分内容的版权身份问题。
作者:黄莺
2025年2月11日,美国特拉华州联邦地区法院的
Bibas
法官在一份有关
汤森路透集团
起诉
Ross intelligence公司
使用法律数据库Westlaw的摘要(headnotes)数据训练人工智能系统的简要判决中,裁决Ross构成了版权侵权。
对于这起案件目前的焦点主要在于美国版权法的“合理使用”,AI工具用于训练使用摘要数据是否构成侵权,法院的裁判思路以及对于传统数据公司和新兴的AI公司的利弊上。此为本文讨论的第一点。
但是我们认为,这起案件背后隐藏的更深层次问题,或许才更应该引起关注,也就是如果汤森路透的摘要内容也借助AI来实施完成,那么这部分的内容是否可以被认为是拥有版权保护的。此为本文讨论的第二点。
汤森路透集团拥有的Westlaw数据库包含几部分内容,
一是
拥有原始的公开的法律材料,例如法院命令、判决和法规等;
二是
拥有Westlaw自己创建的摘要和编号系统。
正如下面这个例子,右侧部分是法院公开判决部分的内容,左侧的摘要(
headnotes
)是Westlaw编辑后的内容。因此对于这部分内容是否属于是版权保护的具有创造的表达,就成为本案审理中的一个关键点。
这起案件的背景是,Ross是Westlaw的竞争对手,其开发了使用人工智能的法律研究搜索引擎。曾试图向汤森路透集团申请授权Westlaw的数据,但遭到拒绝,于是Ross与LegalEase合作获取“Bulk Memos”来训练AI,而这些Bulk Memos由Westlaw的摘要构成。因此汤森路透发现后起诉了Ross侵犯版权。
Ross试图使用美国版权法中的“合理使用”原则来进行抗辩,并由其承担举证责任。
根据既有问题法院在合理使用上需要考虑的四个因素来看,最终,在本案中,在因素一(使用目的和性质)和因素四(对版权作品价值或潜在市场的影响)上,法官做出了有利于汤森路透的裁决,在因素二(版权作品的性质)和因素三(使用作品的数量和实质性)的判决则有利于Ross。
但是由于Bibas法官在审理中认为本案因素四是最重要的,也就是认为Ross试图通过开发市场替代品来与Westlaw竞争,因此综合权衡下,汤森路透在合理使用抗辩上胜诉。
因此,很多人认为该判决的当事双方,与纽约时报和OpenAI的纠纷还有不同之处,就在于因素四,因为OpenAI并非是为了取代纽约时报,因此很难直接定义为具有取代性的竞争者。
无论怎样,这一判决将在美国AI发展上扮演重要的里程碑角色。
美国一些专家担忧,这一判决对于AI公司来说很糟糕,这表明AI公司以后用来论证合理使用的大部分判例将是“无关紧要的”。
在本案中,法官认为Westlaw的材料虽具有一定原创性,但创造性有限。因此汤森路透也是用最低限度创新性来提起上诉的。
对于这一点,在前后审理上,也曾出现过认定反转的情况。法院之前更倾向于认定
摘要和编号系统
是不具有版权性的,也就是可以合理使用。
但是随后Bibas法官推翻了之前的这种认定,使用了“
原创性门槛极低,仅需一定程度的创造性火花
” 这一标准,认定摘要和编号系统均具有原创性。
摘要作为从司法意见中提炼出的法律要点,无论是作为汇编还是单个作品,都体现了编辑的创造性选择;关键编号系统即便部分由程序生成且分类常见,也具备最低限度的原创性。
这个案例如果映射到专利领域,对那些熟悉专利数据底层逻辑的人就更容易理解。
汤森路透除了拥有Westlaw数据库之外,早年间还拥有德温特(Derwent)专利数据库,后来被卖给了科睿维安。
德温特专利数据最显著的特点就是对各个国家专利局公开的专利文献数据进行的二次加工,包括聘请各领域专家重新撰写摘要,编织一套德温特代码来重新对专利进行分类等,这些工作早期全部都是由人工来完成。