训练阶段的生成式人工智能版权侵权避风港规则构想包括,在充分披露所用版权作品信息的情况下,除非版权人作出权利保留声明,生成式人工智能服务提供者可以未经许可使用他人作品训练非定制型的生成式人工智能;若版权人作出权利保留声明,但生成式人工智能服务提供者对未能识别权利保留声明没有过错的,无须承担停止侵害的侵权责任;对用于训练的作品,生成式人工智能服务提供者应当进行整体性补偿。
从法律属性来看,这一阶段规则免除的是生成式人工智能服务提供者的故意侵权责任,是一种过错免除型避风港规则。其构造逻辑为,在促进核心科技创新的背景下,为了公正地分配侵权风险的预防成本,法律允许生成式人工智能服务提供者不经许可使用作品进行人工智能模型训练,以扩张其行为自由,减少后顾之忧。但如果不加甄别地使用作品,有可能对版权人造成重大损失,违背设置避风港规则的初衷。因此,生成式人工智能服务提供者应将版权侵权风险控制在一定范围内,尊重版权人保留权利的意思自治,对避免侵权后果的扩张承担一定的注意义务。
近年来,欧盟在生成式人工智能立法中纳入了类似规则。2019年,欧盟《数字化单一市场版权指令》为可用于模型训练的商业性文本数据挖掘创设版权例外规则,实现了作品使用从“选择—进入”到“选择—退出”的转变,颠覆了事先授权模式。该指令第4条规定,基于文本和数据挖掘目的而开展非临时性的作品复制时,除非版权人以适当方式声明保留权利,可以适用版权的例外与限制。适当方式的典型情形是,当作品已在网络上公开提供时,版权人应采用机器可读的方式作出权利保留声明。2023年,欧盟《关于公平获取和使用数据的统一规则条例(数据法)》第9条规定了数据使用补偿制度,要求数据使用者在行使对他人所持数据的访问权时,应当根据他人对数据获取、生成、收集的贡献及数据的数量、格式和性质提供合理、无歧视的补偿。这意味着,数据服务提供者对相当一部分作品数据的爬取都应当支付补偿,但这种补偿是整体性的,有别于基于单个作品市场价值计算的损害赔偿。2024年,欧盟正式通过《人工智能法案》。为了确保生成式人工智能服务提供者在训练模型时尊重版权,该法案要求生成式人工智能服务提供者提高透明度,就作品使用情况制定并公开详细摘要。在这些立法进展背后,欧盟逐步破除了生成式人工智能训练模型使用作品事先授权难、权利补偿难和信息获取难三大问题。
1.信息披露义务
信息披露义务是指生成式人工智能服务提供者必须向权利人告知作品的基本使用情况。之所以将信息披露义务作为免责条件,是因为其带来的透明度是实现交易互信和版权人维权的必要前提,只有保持足够透明,权利人和监管机构才可以判断人工智能的可靠程度,确保生成式人工智能服务提供者不会以损害权利的方式行事。换言之,在当前缺乏透明度的情形下,版权人无法确保许可条件的公平性,但如果能消除信息不对称,就有助于督促生成式人工智能服务提供者在尊重作者意愿的前提下开展训练。即便产生了侵权行为,也能有效获取证据,及时维权。一旦风险可控,以作品收益为主要收入来源的版权人将更加倾向于许可人工智能使用作品。目前,透明度已被美国、欧盟等主要国家和地区作为发展人工智能的基本伦理准则。
借鉴欧盟《人工智能法案》的规定,我国可对信息披露义务作如下要求:其一,在形式上,将公布信息摘要与提供查询接口相结合,平衡信息披露充分度与商业秘密保护。由于训练所用作品的来源、选取事关经营策略和技术细节,可能构成商业秘密。因此,作品信息披露既无须技术方面的详细说明,也无须列出完整清单,仅向社会公布作品使用情况的整体摘要即可。同时,为使版权人能够得知单个作品的具体使用状况,生成式人工智能服务提供者还应发挥经济优势与技术优势,通过整理权利信息、提取作品特征、引入数据服务商等途径,为版权人提供查询借口,使其可通过信息检索、内容比对等方式,获知作品是否被使用,作品收集时间、来源、处理情况与潜在传播范围等情况。随着区块链与深度学习技术的进步,识别作品信息的成本将不断降低,有助于实现作品的精细化使用。其二,信息披露义务不应妨碍作品的合理使用。随着生成式人工智能的普及,在课堂教学、馆藏陈列等合理使用情形中也将出现使用作品训练模型的情形,为了不妨害相关主体的合法利益,应当鼓励自愿披露作品信息而非强制。其三,适当简化初创企业或中小型企业的信息披露义务。鉴于信息披露义务将对人工智能领域的后进入者造成较高成本负担,且中小型企业的作品使用规模相对有限,可允许其以较为简化的方式履行信息披露义务。其四,为保障信息披露义务被有效执行,建议行政部门拟订强制性标准,指定专门机构开展常态监督与随机检查,确保透明度要求落到实处。
2.权利保留的识别尊重义务
权利保留的识别尊重义务,是指生成式人工智能服务提供者使用版权作品开展模型训练时,对未识别到版权人的权利保留声明没有过错,或者在识别该权利保留声明后,避开使用该作品进行模型训练。在使用海量作品训练规模下,仅凭版权人或生成式人工智能服务提供者任意一方都很难达成既使用作品又规避侵权的目标,需要双方相互配合,发挥各自优势。在“选择—进入”模式下,权利人因交易成本高、获益低而怠于实施许可,生成式人工智能服务提供者因侵权风险下降有限而缺乏获取许可的动力。若调整为“选择—退出”模式,一方面,善意权利人无须采取行动就能默示许可使用作品,而希望退出训练的权利人也会主动以各种低成本方式表示权利保留;另一方面,生成式人工智能服务提供者基于避风港规则的免责激励会尽量搜集作品,并充分发挥技术优势以识别以爬虫协议等方式作出的权利保留声明。
版权人有两种保留权利的途径:作品收集前的拒绝训练声明和基于信息披露的退出训练表示。不论何种途径,权利保留声明在形式上都应包含作品详细信息、权利证明和声明权利保留的意思表示等信息。为了保障版权人在作品被收集后能够根据信息披露退出训练,生成式人工智能服务提供者应当在收集作品后设置合理的“缓冲期”。“缓冲期”过后未收到退出训练声明的,方可将作品投入模型训练中。收到版权人作出的权利保留声明后,生成式人工智能服务提供者须在合理期限内将作品从数据集内删除,无法删除或删除成本过高的,可考虑在算法中设定避免使用相关作品的指令,达到与删除作品相同的效果。待上述程序完成后,生成式人工智能服务提供者应及时回复版权人,以书面形式告知处理结果,并将退出训练声明等文件留档保存,以便在纠纷中查证。
考虑到作品收集的海量规模和网络互联互通的有限水准,生成式人工智能服务提供者仅在对识别权利保留有过错时才承担责任。在过错认定上,版权人除以对话或数据电文等形式使生成式人工智能服务提供者明确知悉其保留权利的意思表示外,还可采取其他合理形式。问题在于,当版权人未直接将权利保留告知生成式人工智能服务提供者时,后者就识别权利保留履行何种注意义务才不构成过错。
对生成式人工智能服务提供者而言,识别权利保留声明更多发生在作品收集过程中,其注意义务设定也应围绕这一环节展开。在具体设定网络服务提供者知识产权注意义务时,应考量网络服务类型、行为类型以及权利客体类型等因素。结合产业实践,生成式人工智能服务提供者至少应履行以下注意义务:一是对作品元数据和权利管理信息的注意义务。随着技术发展,除对作品添加元数据及权利管理信息的惯常做法之外,一些版权人还会添加“请勿训练”(do not train)标签。例如,Adobe曾开发“内容凭证”技术,版权人可借此添加上述标签并掌握作品流向。未来,从作品信息中识别权利保留声明将是注意义务发展的潮流。Stability AI表示,他们预计将收到超过1.6亿份退出请求,基于元数据的声明将是其中重要组成。二是对网站爬虫协议等技术措施的注意义务。当前,生成式人工智能服务提供者主要借助算法爬取各种公开作品,相应地,版权人也会在其网站设置拒绝爬取的协议和各种防止接触、使用的技术措施,生成式人工智能服务提供者应当优化算法,识别、遵守此类协议。三是对作品来源的注意义务。若版权人的网站有爬虫协议等技术,一些生成式人工智能服务提供者可能转而从第三方网站爬取作品,其中可能会爬取到盗版作品。生成式人工智能服务提供者须识别此类异常情况,若某些非官方网站有大量他人版权作品,或版权人、版权执法机构对某些网站发出预警,则应额外审查该部分作品原始出处及其权利保留情况。四是对特殊类型作品的注意义务。一方面,对于电影和音乐等价值较高、权利集中的作品,版权人极有可能与生成式人工智能服务提供者开展授权谈判,应额外关注。另一方面,一些作品虽有权利保留信息,却有元数据不完整的复制件广泛传播,这就要求生成式人工智能服务提供者记录过往收集信息并开展比对,避免误用侵权复制件。
3.非直接获得经济利益义务
在风险分配理论中,利益获取是划定侵权主体是否须承担额外注意义务最重要的因素:生成式人工智能服务提供者的获利若建立在对他人的侵权基础之上,那么便应承担与其利益获取程度相当的风险损害后果。但这一理论也有缺陷,任何生成式人工智能服务提供者的模型训练都以市场应用为目的,从中获益系应有之义,若不加区分地对任何获益主体都施以注意义务,则极易导致其版权侵权责任异化为,一旦具有侵权风险就要承担侵权后果的危险责任形态。对此,美国在解决网络服务提供者的类似风险分配问题时,将利益获取限定为“非直接获得经济利益”,值得我国借鉴。美国《千禧年数字版权法》(以下简称DMCA)第512条、我国《条例》第22条均规定,网络服务提供者不承担赔偿责任的前提之一是“未从服务对象提供作品中直接获得经济利益”。根据美国国会的解释,若侵权应用方式与非侵权应用方式支付了相同的费用,则不应认为网络服务提供者获得了可直接归因于侵权活动的经济利益。换言之,判断是否直接获得经济利益的关键在于收益多寡与侵权行为间是否存在必然联系,若网络服务提供者在不侵权的情况下也能固定获得相关收益,则说明该收益的获取并不受侵权行为影响。美国国会的解释中还提到,收取一次性设置费、定期收取固定服务费、依据服务时间长短及信息流量计算费用均属于非直接获得经济利益的范围。
类似地,在生成式人工智能语境下,若用户可无偿使用训练模型或仅须为使用基础服务而支付固定金额会员费,便应认为生成式人工智能服务提供者未直接从版权侵权中获得经济利益。当前,各类面向大众的通用模型都须用户注册会员并按月支付费用,以此弥补模型训练所投入的人力、设备及运营费用。此种会员费系生成式人工智能的使用门槛,不论生成式人工智能服务提供者是否使用特定作品训练,用户基于生产效率、学习娱乐需要都会选择付费使用。事实上,受技术特征影响,用户并不知道哪些作品被用于训练,在生成内容高度随机性影响下,用户更不会为生成与某特定作品相似内容而专门付费,此时生成式人工智能服务提供者获益多少并不受特定侵权行为的影响,二者缺乏直接关联,属于非直接获得经济利益。相反,当特定用户为模型训练支付了额外费用,如指定投喂作品范围、训练特定作品风格时,由于生成式人工智能服务提供者是否使用某特定作品训练直接决定了其能否增加收益,生成内容侵犯版权的概率亦大幅上升,则不应再获得免除事先授权的避风港规则保护。目前,除向公众提供通用的大模型外,生成式人工智能服务提供者另一重要获益渠道便是基于用户个性化需求训练定制型人工智能。在实践中,一些企业为了提高生产效率并降低生产成本,会选择支付远高于会员费的定制费用,要求生成式人工智能服务提供者在作品投喂、算法设计方面迎合企业的个性化需求,促使模型能够按照预期生成内容,以满足企业画面制作、文本写作等需求。此类模型训练使用的作品规模虽小,但系双方刻意选择,对版权人作品的市场替代性较强,仍应事先获得授权许可。
4.整体性补偿义务
与作者基于特定作品享有的获酬权不同,整体性补偿是指那些未作出权利保留的作者群体作为一个集体所获得的报酬,背后蕴含着版权领域的公共获酬思想——从社会基于作品使用产生的巨额财富中抽取一部分补贴版权人。总体而言,公共获酬思想及整体性补偿制度高度契合生成式人工智能版权侵权的规制需求。首先,作为一种集体支付形式,整体性补偿不以作者或单个作品的贡献为计算基础,可以有效克服事先授权模式下交易成本过高的问题,更符合海量作品使用规模的现状。其次,整体性补偿不以支付完全等同于损害赔偿的数额为要件,可以有效降低生成式人工智能服务提供者的运营成本,更契合公平分担风险的原则。最后,整体性补偿的资金可以有多种来源,有助于合理分摊、补偿版权人的成本。此外,从现实状况来看,要求生成式人工智能服务提供者补偿版权人并不会对其运营状况造成重大影响,许多企业本就会提前将一定版权赔偿金额计算在必要成本之内,只要训练模型的获益远大于这部分成本,整体性补偿就是一种行之有效的方案。在版权史上,也曾出现过以整体性补偿应对科技进步引发大规模侵权的立法实践。20世纪,随着数字音频技术的发展,以发行唱片为主要收入的音乐产业遭遇冲击,为了平衡新技术发展与版权保护,美国版权法规定从数字音频记录设备制造商的销售收入中征收税款,用于整体性补贴音乐作品及录音制品权利人,同时使制造商免于为用户侵权的复制行为承担责任。
整体性补偿的执行重点包括厘定资金来源和确定支付对象。在厘定资金来源方面,根据风险共担原则,整体性补偿应具有多元化构成,尽量提高对版权人的补偿力度。一是对生成式人工智能服务提供者训练模型使用的作品征收版税。由行政部门根据生成式人工智能服务提供者的营业收入、使用作品类型、训练规模、方式、用户数量以及市场合理许可费率,确定从其利润中征税的百分比,将这部分资金作为整体性补偿的主要构成。二是设立模型训练使用作品的强制性保险。对于那些主张受到严重市场影响且补偿远不足以填补损失的少数群体,可以由专门的保险机构在经过核实后向其提供额外补偿。三是充分发挥财政拨款的带动作用。从中央和地方财政用于支持人工智能技术发展的资金中抽取部分款项充实整体性补偿经费。在确定支付对象方面,应当按梯次确定支付对象。在版权集体管理成熟的领域,可由集体管理组织补偿版权人。在集体管理尚不健全的领域,生成式人工智能服务提供者可委托或设立专门的基金组织,对未退出训练的作品版权人进行补偿。对于那些无人领取或难以建立有效补偿机制的领域,可以设立专项基金资助该领域的发展。