生成式人工智能大语言模型的准确性和有效性,依赖于事前训练时海量和高质量数据的输入。这些数据包含丰富的词汇、语法结构等,大多来源于受著作权法保护的文字、音频和视频类作品。人工智能开发者往往以数据挖掘等方式直接从互联网或数据库中获得上述作品,因而被著作权人视为落入复制权的范围。所以在“抓取—复制—编码—储存”等一系列数据挖掘过程中,未经著作权人许可获取作品显然存在侵犯复制权的风险。
但与人工智能生成内容的可版权性认定不同,机器学习中使用他人作品的合法性判定一直存在争议。这不仅是因为大规模使用数据对于人工智能技术的发展至关重要,还因为无差别地获取训练数据直接关联人工智能偏见的应对和市场公平竞争秩序的维护。其中的悖论在于,如果可以不经许可大规模使用著作权人的作品,著作权人不但无法从中获取收益,更面临被人工智能生成内容逐步取代的危险;反之如果使用以事前许可为前提,因权利保护而受限制的数据来源又可能导致人工智能生成内容充满错误和偏见,从而阻碍人工智能产业的发展。
在Tremblay
v.
OpenAI, Inc.案、Thomson Reuters Enterprise Centre GmbH
v.
Ross Intelligence Inc.案、Getty Images (US), Inc.
v.
Stability AI, Inc.案等案件中,著作权人普遍认为,机器学习过程中未经许可将其作品作为训练数据的行为构成侵权,包括Stability AI、OpenAI、Metal、Alphabet等在内的生成式人工智能企业全部在被诉之列。其中,The N.Y. Times Co.
v.
Microsoft Corp.案被视为版权产业与人工智能产业主体之间的典型碰撞。原告《纽约时报》既是版权产业的杰出代表,也是“职业创造内容”创作模式的典范。被告OpenAI和Microsoft是生成式人工智能的缔造者。作为传统依靠原创内容获取收益的代表,《纽约日报》指控OpenAI和Microsoft未经许可非法复制了其数百万篇文章训练ChatGPT和其他人工智能模型,侵犯了《纽约时报》的著作权。同时,ChatGPT在针对用户提示词的回应中,出现了大量转述或直接引用《纽约时报》刊载作品的情况,带来了类似于深度链接那样实质性替代被链接网站传播作品的效果。在美国作家协会诉OpenAI的案件中,美国作家协会同样指出,OpenAI为了训练人工智能大模型,在未经作者同意的情况下大量复制了著作权保护期内的图书。ChatGPT不但可以准确地概括作品的主题和人物关系,根据要求生成模仿特定作者写作风格的段落,还可以提供侵权作品的摘要,并在不改变原作品人物名称和关系的前提下生成新的续作大纲。但被告OpenAI认为,人工智能大模型训练与普通读者使用书籍的本质相同,都是建立在学习已有作品文字顺序、陈述方式和语法结构等的基础上,只是自然人作者未能从中获利而已。
回顾传播技术影响著作权制度变革的历史可以发现,技术对制度的冲击已多次出现。从早期的录音录像技术、广播技术、网络技术到如今的生成式人工智能技术,著作权法始终面临新旧产业保护的取舍问题,而且司法判决可能会对产业发展方向产生重大影响。在20世纪80年代将使用录像设备改变观看时间(time-shifting)的行为认定为合理使用的“索尼案”中,法院明确将录制电视节目的行为认定为合理使用,并认为使用具有“实质性非侵权用途”的录像设备不构成“帮助侵权”。该判决为录像设备的发展和普及提供了稳定的制度预期,调和了版权产业与录制设备生产者之间的矛盾。21世纪后,基于互联网便捷传输兴起而被广泛使用的点对点(P2P)技术,使版权产业与互联网产业的利益分歧再次成为著作权法亟须回应的问题。因此,美国联邦最高法院在Grokster案中引入了“积极诱导标准”(active inducement test),认为被告须对“不仅仅能够预料,更通过广告诱导侵权行为”的做法承担侵权责任。这一判断确认了网络服务提供者利用技术手段为用户提供侵权工具的非法性,为合法的在线市场发展提供了保障。
针对生成式人工智能的大规模诉讼,并不一定意味着生成式人工智能设计者、使用者或者平台存在侵权行为。只是每当新兴产业开拓新兴市场后,原市场中的权利人会因既有市场遭遇冲击或萎缩而捍卫自己的利益。此次人工智能发展给著作权法带来的冲击,本质上也是技术的使用显著降低了作品创作和传播的交易成本,使原有的权利范畴和权利限制设定难以保障著作权人的合法收益,进而弱化了著作权制度对创作与传播的正向激励。以《纽约时报》诉Open AI为代表的系列案件判决结果,将如同当年决定录像设备前景的“索尼案”和左右网络服务提供者命运的Grokster案一样,可能会对尚未真正获得盈利能力的人工智能产业发展态势带来重大改变。因此,在人工智能技术带来的新市场中清晰界定权利范畴及其归属,才能延续历史上著作权制度对新旧产业的协调作用,更好地促进人工智能产业发展。
由于算力的不断增强,生成式人工智能模型训练所涉及的参数语料已经达到万亿级标准,大规模的数据使用使得机器学习的合法性认定对生成式人工智能产业的发展产生巨大影响。基于促进本国人工智能产业的发展,不同国家都采取了符合本国国情的政策。根据人工智能技术与产业发展阶段的不同,目前主要存在技术引领型和技术追赶型两种发展类型。
1.技术领先型国家:在司法和立法的充分博弈中归纳结论
美国是现阶段生成式人工智能技术处于领先的国家。作为判例法国家,美国并未旗帜鲜明地采取全面鼓励人工智能产业发展的立法和司法选择,而是延续了其在录音、广播和互联网技术上的回应策略。一方面在立法上开展广泛听证,鼓励各产业和各阶层充分表达制度需求与理由;另一方面在司法上鼓励版权产业与人工智能产业主体通过诉讼表达利益诉求,以此判断制度安排的尺度和标准。这意味着美国立法和司法并未同步“创新”,而是采取相对保守的选择,旨在尽量科学客观地理解人工智能产业发展的需求。
自2023年5月开始,美国众议院组织了一系列关于人工智能与知识产权的听证会,但版权与人工智能产业的立场仍然存在差异,处于对立状态。人工智能行业代表认为,人工智能系统,尤其是在其早期的训练阶段,并不是简单地对接触的数据进行机械记忆,而是通过掌握语言、视觉特征和上下文信息的基本原理生成训练数据中并未出现的新内容。如果将人工智能的训练数据限定在非版权材料上,那么将导致人工智能系统语言理解能力以及其他技能相应下降。此外,公有领域的作品通常年代久远,已过版权保护期限,可能会导致人工智能系统学习到过时和存在偏见的内容。因此,借助受版权保护的作品训练人工智能系统的行为应当被纳入合理使用的范围。更多版权产业主体则认为,缺乏情感和经验的人工智能之所以能够生成内容,所依赖的只是大量未经许可使用且受版权保护的作品,为人工智能创造捷径只会削弱人类创作新作品的动力,如果忽视了人类情感和经验在音乐创作中的重要性,最终人类可能会面临的是一个无法区分原创与仿造的世界。与此同时,美国倡导产业界以行业自治的方式通过协商达成共识,如2023年推动谷歌、亚马逊、Metal、Microsoft等企业合作,采取自愿监管措施以规避人工智能技术开发产生的法律风险,包括但不限于开展安全测试、为人工智能生成内容添加数字水印、制定隐私与知识产权保护政策等。
在司法层面,美国法院继续充分发挥判例法的优势,希望各方在诉讼中充分表达后得出结论。模型训练的合法性问题,主要集中在转换性使用是否能够适用于机器学习。但转换性使用这一概念本身就是法官造法的结果,旨在应对当时已广泛出现的“二次创作”。随着社会的不断进步,这一概念的适用范围在司法上被不断拓展。在20世纪90年代首次确立转换性使用的“坎贝尔案”中,法院认为,在使用原作品时增加了“新表达、新含义或信息”即视为构成转换性使用。在应对不断丰富的社会表达和“二次创作”中,转换性使用的认定标准逐步放宽,即使是不加变化的直接使用,只要使用目的不同,也可归属于合理使用,而无须考虑使用行为是否具备“营利性”。例如,在“谷歌数字图书馆案”中,法院认为,即使谷歌是在营利性目的的驱使下利用其在图书搜索方面的主导地位巩固自身的竞争优势,当涉及高度转换性使用的情况时,不含因商业动机问题而妨碍合理使用的认定。谷歌的“片段视图”功能旨在通过向搜索者展示与搜索词相关的文本片段帮助用户判断搜索结果是否符合需求,虽然可能造成一定的图书销售损失,但是这种损失不足以使谷歌的使用成为实质的替代品。这种解释并非毫无争议,后来在审理类似案件时,法院并没有完全遵循之前全面偏向目的转换的解释路径,一些同样属于“挪用艺术”(appropriation art)和“混创”(remix)的使用行为,又再次被认定为非法使用。
综上可知,不论是美国版权局,还是美国各级法院,现阶段都对人工智能生成内容的版权问题持观望和保守态度。这一方面是因为判例法和产业主导的历史传统,使得美国期望充分了解行业发展需求和利益分歧,保障法律和政策的科学性;另一方面是因为美国人工智能处于领先地位,前期机器学习过程中对作品的大量使用已经基本告一段落,所以对合理使用的认定需求并不迫切。
2.技术赶超型国家:规制与激励策略并存
与美国相比,中国、欧盟和日本都属于技术追赶型国家或地区。针对人工智能产业带来的著作权问题,等待和观望并不可取,过于犹豫或者保守都可能会对人工智能产业发展带来消极影响,因此这些国家或地区须及时制定应对方案以激励产业快速发展。但因各自文化传统不同,技术追赶型国家或地区的立法又有平等型与优先型之分。
欧盟作为最早关注人工智能著作权问题的地区,主要借用著作权限制与例外条款中的“文本与数据挖掘”应对大模型训练中的作品使用问题。但欧盟主要强调对文本数据的大量获取只能是出于非商业目的的科研活动。从欧盟《数字化单一市场版权指令》的立法过程来看,鉴于文本与数据挖掘例外是否能扩张适用到商业领域争议巨大,难以形成共识,因此,欧盟最终在两个方面达成妥协:一是对于以非商业性使用为前提的强制性例外条款,其主体从仅科学研究人员扩张至教育机构和文化遗产机构;二是如果成员选择规定任何人都可以对其合法访问的作品与数据进行挖掘,就必须允许著作权人有权排除这种例外。2024年欧盟通过的世界首部全面监管人工智能的法规《人工智能法案》,承认《数字化单一市场版权指令》第3条和第4条规定的例外条款,并提出除非权利人作出保留的情况,通用人工智能模型训练过程中的文本与数据挖掘不构成著作权侵权。由于生成式人工智能开发者主要是营利性法人,其研发目的显然不符合非商业性,故在欧盟现有的制度体系下商业机构主导的人工智能模型训练难以被豁免。也正因为如此,作为《人工智能法案》通过后欧盟第一个机器学习合理使用判决,德国汉堡地区法院第十民事法庭在判决中强调,用于科学研究的人工智能训练不构成著作权侵权。法院并未适用德国《著作权法》第44条b款“用于商业目的的文本和数据挖掘”例外,而是根据第60条d款“用于科学研究的文本和数据挖掘”例外,认定大规模人工智能使用摄影作品创建大模型数据集的行为属于科学研究的例外。从德国判例所选择适用的规范可知,科学研究例外的适用范围要小于非商业性目的的例外,这说明欧盟对机器学习合理使用的考量仍然持非常严格的态度。
从产业发展与技术水平上看,日本属于典型的人工智能技术追赶型国家,将人工智能作为国家未来的支柱产业之一。相比于欧盟的谨慎,日本的核心目标始终是为生成式人工智能的发展提供制度保障。2007年前后,日本为Web 2.0时代的主流互联网产业搜索引擎服务提供者开启“信息大航海计划”,旨在激励开发从海量信息中准确检索和分析必要信息的技术。以物联网、大数据、人工智能等技术革新为基础的新产业革命,同样被日本认为是提高本土生产力的关键。这些技术可以通过对大量信息的集成、组合和分析创造出新附加值,因而日本提出著作权法需要更加灵活的权利限制规则。在人工智能生成内容机器学习中大规模使用他人作品的合法性问题上,日本在欧美国家陷入踌躇的时候快速确立了应归于合理使用的立场,并在不破坏既有法律传统的前提下进行了制度创新。
在立法上,日本采取快速修法的方式,在十年内对著作权法进行了三次密集修订(2009年、2012年、2018年)。从具体内容看,2009年增加了第47条之六的信息检索条款、第47条之七的信息分析条款、第47条之八的伴随电子计算机中的作品使用进行的复制条款。这些条款规定了极为宽泛的文本数据挖掘例外,既适用于商业目的,也适用于非商业的目的,即使是出于商业目的的数据挖掘与信息分析也不构成侵权。2012年,日本《著作权法》新增了第30条之四的技术开发条款,增加了以开发为目的的合理使用,成为后续柔性权利限制条款的雏形。2018年,日本再次以柔性权利限制规定为核心进行了新一轮的修法,整合第47条之七与第30条之四,成为新的第30条之四;修改第47条之四至第47条之九,精简为第47条之四的计算机附随性使用条款与第47条之五的信息处理轻微利用条款。日本通过修法实现了法律条款的多层次结合,兼顾灵活性与明确性,在设定柔性条款的同时,仍然坚持了对权利限制的类型化列举,没有破坏权利限制规范的稳定性和可预测性,在涵盖了人工智能机器学习的同时,也避免了陷入因适用美国合理使用制度中高度抽象的“四要素”要件所引发的司法争议。
更值得关注的是,日本没有照搬美国的判断标准,而是采取了符合本国既有立法传统的修法路径,通过在具体类型上设定柔性条款来全面解决涵盖计算机、生成式人工智能和信息分析等新问题。这说明即使是以具体列举为立法传统的国家,也能够在不调整原有法律框架的前提下通过局部调整回应技术迭代的需求。具言之,日本立法模式的创新主要体现在以下四个方面。
其一,对“非营利性”目的的突破。相较于其他国家大多将非营利性作为判断信息分析是否属于合理使用的重要条件,日本著作权法在柔性条款中破除了非营利性的限定。这意味着不仅以科学研究等非营利为目的的信息分析属于合理使用,而且以商业性为目的进行的信息分析同样可以属于合理使用,这显然为生成式人工智能模型训练提供了便利。
其二,对“有限使用方式”的突破。日本《著作权法》第30条之四规定,在使用的必要限度内,不以享受作品表达的思想或情感为目的,且未对著作权人的利益造成损害,即可以任何方式使用作品。换言之,只要符合“必要限度”与“不损害著作权人利益”,除复制外,向公众传播等利用行为也是被允许的。
其三,对“合法使用来源”的突破。日本规定即使不是合法取得的作品也可以在特定条件下使用。欧盟《数字化单一市场版权指令》规定,对非法下载的信息进行分析不合法。德国《著作权法》也明确提出,允许复制合法获取的作品,以便进行文本和数据挖掘,但当不再需要副本进行文本和数据挖掘时,应将其删除。但日本著作权法对使用来源不明的作品采取了宽容的态度,即使作品的合法性来源存疑,但如果是出于信息分析的目的使用就不被视为非法。这一突破显然为机器学习中不可避免地使用未经许可作品之情形提供了重要依托。
其四,对“分析途径”的突破。日本著作权法对数据分析的权利限制规定不仅适用于计算机的数据分析,也适用于不使用计算机的人工数据分析。即使生成式人工智能学习过程含有人类直接参与的复制行为,这一行为也被归于生成式人工智能的数据分析,而不会将其单独讨论或赋予可版权性,避免陷入有关主体或可版权性等无关争议中。