专栏名称: 知识产权那点事
专注知识产权诉讼、咨询等业务,开展知识产权调研、培训等服务。投稿请至[email protected]。感谢您的关注!
目录
51好读  ›  专栏  ›  知识产权那点事

黄汇 翟鹏威:公共领域视野下大模型数据使用行为的著作权定性

知识产权那点事  · 公众号  · 知识产权  · 2025-03-03 19:25

正文


文/ 黄汇  法学博士,西南政法大学民商法学院教授

翟鹏威  西南政法大学民商法学院博士研究生

来源:《知识产权》2025年1期


内容提要

大模型数据使用行为著作权定性的分歧突显了学理上对该问题之本质尚缺乏统一的认知,而公共领域的研究视角有助于实现从行为合理性的主观评估向客体合法性的客观判断推进。基于大模型产业分层的考量、利益市场的可分割性以及法效果评价的精准化目标,其著作权定性宜在公共领域视角下实施差异化规制。大模型数据训练的真实对象系非作者价值之元知识,对其使用未造成著作权法意义上可认知的损害,其应归入公共领域范畴。但在输出端,若大模型生成内容与训练作品构成实质性相似,则助长了著作权法的逆向激励,不利于著作权对公共领域反哺价值的实现,因此应受到著作权法的严格规制。最后,大模型模仿创作风格的行为则应视情况区分其究竟属于公共领域的利用行为抑或具有不正当竞争性质的搭便车行为,以合理划定其行为的合法性边界。


关 键 词

大模型数据使用 著作权定性 公共领域 非作者价值 风格模仿


引 言


大模型是数字基础设施建设的关键组成部分,更是驱动新一轮科技与产业变革的重要新质生产力要素与对象。然而,其在创造新质生产力文明的同时,也给现有的著作权法律关系带来了重大挑战。一方面,在模型输入阶段,为了提升人工智能大模型的基础能力,需要向其“投喂”海量的著作、新闻、代码等多种类型的知识语料和文化养料。然而,未经作者许可就大规模复制和使用这些作品进行数据训练,被斥责为大规模盗窃或者不当获利之举。另一方面,在模型输出阶段,人工智能大模型凭借其强大的生成能力,能模仿自然人的创作风格,创作出与训练作品构成实质性相似的作品,从而将严重挤压原作者的合理报酬空间,形成对人类作者的替代效应。然而,若无视人工智能大模型对高质量语料库和数据集的供给和利用需求,只是片面地强调对作者利益的静态利益保护,对大模型开发者和使用者苛以过高的著作权合规义务,将难以给予大模型产业明确的发展预期以及必要的喘息空间,不利于国家在该领域的技术进步和创新发展。


为协调技术发展与权利保障之间的矛盾,缓和著作权人与大模型开发者之间的紧张关系,立法实践上,部分学者共同起草的《中华人民共和国人工智能法(学者建议稿)》提出大模型数据训练合理使用的制度设想。但有学者认为合理使用制度并非最优解,主张引入非表达性使用理论对机器学习应用类型化划分,以适配不同著作权规制手段。另有学者却认为在机器学习的著作权侵权判定中适用非表达性使用理论,仍然难以脱离“实施复制即侵权”的理论误区。更有学者认为大模型数据训练行为的合法性在于对作品使用的“非特定性”。理论分歧凸显有关研究对大模型数据使用行为的本质及其著作权法上的定性尚缺乏统一的共识,且诸多理论和见解往往局限于著作权法系统的封闭框架内,过度执着于使用行为的合理性判断,易于陷入因功能主义的主观推断而引发的“不确定性”泥潭。这些观点忽视了著作权法特意预留、用于承载非作者价值的制度空间,不自觉地陷入“有价值即保护”的权利绝对化逻辑。本文旨从著作权生态的另一端——公共领域视角反面审视大模型数据使用行为。因为公共领域不仅是一种制度存在物,更是一种思想倾向和方法论,它天然地具备对那些处于著作权边缘地带、界定相对模糊的新型作品使用行为进行客观评价,以及全面检视的重要功能。在大模型数据使用问题中,公共领域视角的引入有助于从公共领域的价值立场出发深入挖掘数据使用所涉及的真实对象,将功能主义主导的模糊行为判断模式转变为以公共领域方法为依托的清晰客体认定思路。鉴于此,本文尝试在公共领域视角下探究大模型数据使用行为在著作权范畴内的定性问题,以期推进我国在这方面的探讨不断走向深入。


一、公共领域视野下大模型数据使用行为的定性进路


根据大模型技术链的内部逻辑,涉及的数据使用行为可解构为前端的数据训练和后端的内容生成两个部分。对于这两个部分,究竟是单独评价抑或统一定性,便产生了“层次分析”与“整体分析”两种逻辑进路。层次分析论者主张,基于大模型运转中数据训练与内容生成行为的各自独立,其法律评价应逐一定性,对二者进行有效的责任切割,方才符合事物的本质。整体分析的观点则认为,数据训练与内容生成行为在效果上无法分割,应将模型数据输入的训练阶段和内容输出阶段视为一个合法性判断的整体,对二者进行统一评价。那么,究竟应如何科学地理解二者的逻辑关系并明晰其适用结构?这不仅关乎对大模型著作权侵权行为本质的深度认知,也攸关公共领域视野下前后端不同数据使用行为的科学界定。在“层次分析”与“整体分析”的不同逻辑进路中,本文赞同层次分析的思路,具体理由如下。


(一)契合大模型产业分层样态


传统网络著作权治理往往采取“技术支持者—服务提供者—内容生产者”这一网络法律主体的界分以形成著作权治理的合理链条。例如,我国《信息网络传播权保护条例》将网络服务提供者类型化为网络基础服务提供商、网络接入/信息定位服务提供商和网络信息提供商,不同类型的网络提供商负担不同程度的著作权注意义务。尽管有学者主张按照主体治理范式,将人工智能大模型主体区分为两类:一是输入端处于模型训练阶段的技术开发者,即从事人工智能产品和服务研究与开发的主体;二是输出端处于技术应用阶段的技术提供者,即向公众提供人工智能产品和服务的人。然而该种泾渭分明的网络法律主体界分方法,忽视了人工智能大模型的多样性和复杂性,以此来确定著作权治理链条并不符合人工智能大模型产业链分布规律和技术运行原理。一方面,人工智能大模型“主体责任”的对象呈分散化、多元化和场景化的特性,仅通过传统网络著作权治理体系中区分“技术支持者”“服务提供者”或者“内容生产者”的方法难以精准界定承担著作权侵权责任的应然主体;另一方面,生成式人工智能大模型的开发、调试、部署和迭代的过程是一个由不同阶段组成的、涉及不同的人员和组织的复杂供应链。


事实上,从技术层面看,生成式人工智能正呈现“基础模型—专业模型—服务应用”的分层业态,它打破了传统网络著作权法律治理对数字信息生产方式的底层设定与架构,形成了以大模型为底层技术基座与模型应用的分层产业技术链条。具言之,上游的基础层系由构成大模型技术基底的预训练模型构成,据此可造就以大模型为核心支撑的人工智能技术生态系统;中间层是在预训练模型基础之上进行开发的个性化、场景化的小模型;下游的应用层则将人工智能模型与用户需求相衔接,为用户提供准确预测、文本生成等应用服务。可见,上游的基础层和中间层以作品数据训练为技术手段,大模型底座为技术目的。下游的应用层则以内容生成为手段,以满足用户作品应用需求为具体旨趣。总之,数字时代的著作权法调整范式亟需从主体治理模式过渡到场景治理范式,充分尊重人工智能大模型技术的运行机理和产业及技术分层状况,必须对大模型输入阶段的作品数据训练行为以及应用输出阶段的内容生成行为分层处理,方才符合产业运行的基本事实和未来建设。


(二)理论上利益市场的可分割


实际上,大模型数据训练和内容生成是智能技术进步产生作品数据新用途和利用新技术生产新作品两个本质不同的问题,二者对应完全不同的利益市场。大模型作品数据训练作为一种新兴的作品利用方式,与作品的潜在市场利益紧密相关。所谓的潜在市场,它代表的是一种尚未经过最终市场验证和法律确认,仅具有可能性的经济利益。对潜在经济利益的侵权往往以概率性损害概念为前提,以工具性考虑为驱动力,将可能的市场利益作为值得保护的利益基础,使其免受特定行为的侵害。对此类利益的保护实则是为了确保创作者因作品所形成的预期利益的实现。然而,期待或者预期利益并非仅是个人的主观臆测,其必须基于能实现的合理可能性加以构建,并且能够准确识别保护该期待利益所具有的市场前景。如果潜在市场预期收益的减少不足以对作者的创作激励产生实质性的负面影响,那么该部分市场利益理应保留于公共领域之中,以促进社会整体福利的提升和创新目标的实现。而大模型数据训练对作品的利用系模型开发者在原有作品市场之外所开辟的崭新利用领域,它已然超出了传统著作权法和作者得以控制的认知范畴,故而需要在权衡技术发展与权利保障目标之间达成新的利益平衡。然而,对大模型生成内容而言,其一旦产生即参与到现有表达市场中,与现有作者的表达之间形成市场和价值上的实质竞争。该种作品的现有市场无论在经验层面还是实践层面上都是可观察、可证明和可度量的,无须再通过推导确认其保护的必要,代表的是对当下作者现实的和确凿的利益之保护。因而当大模型生成的内容与原作品构成实质性相似时,便可能实质性地侵害作者“传统的、可预见的或者可能会开发的市场所带来的作品利益”。


对这两类市场利益的区分与甄别,充分彰显了著作权与公共领域二元互动中两种截然不同的价值取向,如何科学地区分二者,不仅关涉著作权法的正确价值选择,更攸关著作权法公共领域有效孵化和持续支撑创新行为。正如有学者总结分析道,科学合理的著作权政策应当如同在前沿创新的园圃中播撒多样种子,让具有实用价值和意外惊喜的幼芽尽可能多地萌发,并且还应具备一种能够有效去除杂草的后续机制,防止杂草对整个创新园圃造成危害。因此,针对前端大模型数据训练行为对作品现实利益和潜在市场损害的评估,其宗旨应更加倾向于维护具备开拓性的竞争市场环境,从而促进符合著作权法文化的创新活动和创新行为,为著作权人利用公共领域实现“蛋糕”的扩容与增值提供条件,而不是在早期阶段即斩断新技术发展的整体价值链条。申言之,著作权法并不禁锢创新竞争衍生之必要损害。因为有创新就必然有竞争,而有竞争则必然带来损害。尤其对开拓性市场竞争中的良性损害,著作权法应持包容审慎的立场,以促进创新与竞争的良性互动。但在大模型生成作品行为定性的评估中,因其系对现有市场的保护,目的则是防范第三人借助复制替代品转移原作市场的侵占性竞争行为。这实际上是两种不同的价值模式和竞争范式,对二者不能等而视之。


(三)分层可实现法律评价精准化


将人工智能大模型研发阶段的数据训练和使用阶段的作品生成进行整体法律评价,符合司法经济性原则。因为行为细分意味着法律界定的分散化,分别定性必将导致法律评价的烦琐与低效。整体评价能避免法律评价的冗余,并确保不同法律行为在其合法性的判定中遵循统一裁判逻辑和定性标准,以避免出现矛盾结果。但该做法却存在诸多问题。


首先,就分析视角而言,整体探讨会导致其中的细分行为被另一更具有决定性意义的行为所吸收,导致相关行为合法性的判断出现冲突和矛盾,无论何者都不利于人工智能大模型技术发展的实践所需。一方面,如果认定大模型数据训练具有侵权性,系一种原罪行为,那么模型生成的内容也将整体被认定为构成著作权侵权,因为基于整体主义的判断理念,后者不过是前者的“毒树之果”。例如,《纽约时报》等原告就积极推动法院采纳“毒树之果”理论,想借此让数据训练的模型开发者担责。另一方面,若模型生成的表达性内容与任何被训练作品构成实质性相似,那么违法性评价也将溯至前端的数据训练行为,这将导致著作权合理使用制度毫无适用空间,从而带来法律逻辑上的二律背反问题。


其次,在民事责任层面,依据整体主义的进路,一旦大模型的生成内容与任何被训练作品构成实质性相似,即推定有关主体接触过相关作品,侵权者必须承担从大模型训练数据集中删除有关作品数据,甚至销毁大模型的“停止侵权”责任。这相当于赋予了大模型价值链中的任何一方都拥有针对所有相关细分行为“一票否决”的权利,可能使大模型开发的其他参与者陷入极度不安的“寒蝉效应”;也可能带来部分权利人为遏制独立大模型市场的开拓性竞争或者为从人工智能大模型高潜力市场的价值链中分得一杯羹,从而利用著作权法手段精准狙击在供应链中占据显著经济优势和控制地位的主体的不合理意图。因此,采用整体主义方法判定大模型数据使用行为的合法性,不仅掩盖了行为合法与否的真实状况,还会在一定程度上限缩了公共领域,错过借精细利用著作权公共领域机制为大模型技术开拓法律空间的良好契机。


反之,层次化的分析方法则具有自身独特的优势,能清晰划分每项行为的法律性质,以精确界定各行为的合法性边界,从而为大模型产业的蓬勃兴起提供明确的导向指引和合理的行为预期。在保护著作权人利益的同时,也有利于新技术的勃兴与发展。总之,法秩序统一性要求“法规范的集合体不应该是一种自我矛盾的统一体⋯⋯要求排除诸规范之间的矛盾,进而要求违法判断的统一性”。故对大模型数据使用行为的合法性判定,须在统一的公共领域视角框架内,结合人工智能价值链的实际场景,采取分层治理的思路,在不同逻辑框架下对之进行差异化规制,即在治理场景上,实施大模型基础层和应用层的区分策略。在价值立场上,则秉持“宽进严出”的创新政策理念,即在模型前端保障大规模高质量数据的合法供给以满足产业创新需求;在后端则重视侵权内容输出的风险防范以保障作者的合理利益。


二、公共领域视野下大模型数据训练中对非作者价值之使用


大模型的发展始终伴随着“数据饥渴”的特性,为此需要在模型训练阶段,“投喂”海量训练数据作为要素支撑。这些数据除部分源于公共领域,还涉及受著作权法保护的作品。倘若在模型训练阶段即施加严格的限制,必然会使大模型技术频繁遭遇著作权侵权指控,从而使其发展踟蹰不前。因此,如何在公共领域视野下科学定性基础层的大模型数据训练行为,既关乎大模型能否在著作权法领域充分发挥其文化创新的基础设施功能,也关系我国以大模型为基础人工智能的算法和算力的国际竞争能力跃升和发展前景,因此尤其重要。


(一)定性基础:公共领域中非作者价值理论


1. 非表达性使用理论之反思


大模型数据训练行为作为一种新型作品使用行为,其是否落入传统作者专有权的规制范围,对该问题的探讨既体现了著作权法适应新技术发展再体系化的制度自觉,又能有效折射著作权立法是否具有回应性的特质,因此对该问题的检视颇有意味。然而,需要注意的是,对于一切技术的法学分析,皆应在基础理论与现有规则的表达之间寻求解释的空间,从而发掘现有制度回应新技术的内在潜能。挖掘著作权法的深层理论结构,从而为大模型数据训练行为提供正当化基础是当前国内外研究的主流范式。马修·萨格所主张的非表达性使用便是对著作权法深层理论结构的挖掘。非表达性使用理论认为,不是为了享受、欣赏或理解的目的,不向公众传播作者原始表达的复制行为,不应被认为构成侵犯著作权。在这一理论视域下,作品被视为一种交流行为,其中著作权人扮演着话语表达者的角色,而其他人则享有回应的权利。因此,作者对作品的权利应当(1)严格限定在作品具体的交流用途之内,(2)并且需要与其他人的交流权利协调一致。申言之,根据非表达性的理论,著作权的主要功能是保护作者免受表达性替代的威胁,但作者在享受表达性权利的同时也应尊重他人的交流表达需求。鉴于著作权的保护范围被严格限制在表达性范畴之内,故而非表达性使用可作为一项独立的侵权抗辩事由。总之,非表达性使用理论通过界定独创性表达或者通过对交流表达功能的限定,在著作权法内部实际上构建起了专有权与公共领域的二元平衡结构。


尽管如此,非表达性使用并非一个明确的概念和成熟的理论。首先,非表达性使用难以涵摄所有作品的合法使用行为。例如,实用艺术品、计算机软件等特殊作品具有很强的功能性,如在此类作品表达之外再强调所谓的非表达性使用,则容易导致功能性判断与非表达性判断混淆。这将弱化对计算机软件、实用艺术品、建筑图纸等具备功能属性的特殊作品的法律保护。其次,在许多情况下,非表达性使用的概念本身就含糊不清。尽管在其可行性论证上,有学者主张“可凭借抽象的‘图式’来提高司法认知效率”。但表达性使用与非表达性使用之间的界限更多是一个语境和程度的问题,并非是一个易于描述的和具化的对象。这就好比思想与表达之间的界限始终是符号性和隐喻性的,并不是一种能够判定特定行为属于作者专有权范围还是公共领域范畴的预测性工具,而仅是一种事后描述,用于证明在其他更具体事实上的结论,或者为判决结果提供正当化的理据。同样,当法官在认定某一使用行为是否属于非表达性使用时,他们只会将争论的焦点从实质性问题转移到类型定义问题上。例如,大模型基于数百万原始蛋白质序列展开训练,可以生成跨越不同家族的功能性蛋白质序列。对于大模型针对蛋白质序列这种非传统客体进行训练是否属于非表达使用的问题,缺乏专业知识的法官要么深陷蛋白质序列定义的困境,要么只能无奈地使用与其相近的传统著作权客体类型类比推导。总之,在面临疑难的非表达性使用行为的判断时,该理论所倡导的功能主义判断方式最后只会沦为基于具体实在的客体类比方法,其最终的司法适用也会陷入与思想/表达二分法同样的理论困境和解释难题,从而导致相关结论经常性地悬而未决,直接影响法律的确定性与可预测性。


2. 公共领域中非作者价值理论之提倡


那么,究竟应如何认定大模型数据使用他人作品的行为,本文认为应穿透表达性使用作为技术性法律术语的表象,从更为本质的公共领域价值维度对作品的新型使用行为作出科学界定。因为法律适用之任务不应是单纯逻辑地适用概念,而是需要进行广泛地价值评估,才能作出符合“法律之精神与意义”裁判。就大模型数据训练行为而言,其真正的问题并非在于对他人作品内容实体形态的复制与使用,而在于对该技术可预见的使用是否侵犯著作权人的特定具体利益。也就是,该种使用行为是否破坏了作者的利益结构,从而破坏了著作权法对作者的激励机制,以至于引发了启动著作权法保护的必要。本文认为,大模型所训练和使用的实际上是作品中的非表达性部分,它们在本质上属于公共领域的非作者价值要素,即其具有非专属于作者的属性,换而言之其不应被认定为属于作者专有权的范围。


事实上,从公共领域的价值维度考量,非作者价值要素的使用在著作权法中具有广泛的存在基础。从法经济视角分析,著作权法的主要功能是为了克服文化公共产品因市场失灵所导致的生产不足问题;而产权界定的目的在于将创造行为的外部收益内在化,让知识资源的生产和分配所产生的大部分盈余由权利人占有,从而实现对其创造行为的有效激励。同时按照产权发展的基础逻辑,鉴于著作权领域新技术的蓬勃发展和新市场的持续开拓,作品的市场价值将不断上扬,高出原作品价值的溢价也应被计入,故而著作权理应延展至作品信息所涵盖的所有价值。然而,若从公共领域的视角审视,这种作品价值完全内部化的做法,可能使著作权制度变得既无效率,也无公正可言。一方面,绝对保护会增加社会成本,却无额外收益。产权界定总是伴随着成本,特别是对于作品这类无形且高度非竞争性的信息商品而言,全面内部化其外部性势必导致后续边际界权成本超出边际收益。因此,在权衡市场效率利弊后,必然有部分作品价值外溢于公共领域。另一方面,著作权领域的创作都具有代际传承性。人类创作力扎根于公共领域历经漫长岁月所积淀的知识成果,每一代创作者都需要汲取前人的智慧。这种代际传承的道德性必然要求享有保护的创作者有义务允许后续作者探索和使用受保护的材料,并将其作为后续创作的来源和基础。


当然,从实际情况看,著作权制度巧妙地为后续创作者预留了利用公共领域非作者价值的制度性空间,该安排体现了对知识自然溢出效应的客观尊重。即作品不应归属作者专属的元素或者说非作者价值要素都应被外溢到公共领域,为相关创新行为提供源源不断的资源支持。非作者价值的使用理论在新型作品使用行为所引发的案件中实际上已得到了运用。例如,在索尼与环球公司案中,原告试图构建许可制度以独占电视节目易时播放功能所带来的增值价值。然而,法院对非作者价值使用理论的运用为该案提供了别样的洞见。法院强调易时技术的增值利益并非直接源于原告的创造性劳动,而是索尼及其用户共同探索并对电视节目创新使用所产生的一种新兴价值形态,这种价值独立且未侵蚀原告的原始创作权益。因此,此类由公共领域所催生创新而衍生出的利益,从公平性与资源合理配置的视角出发,不应为作者所独享,其本质是技术创新对原作品价值增值的一种利益溢出。对这部分利益究竟应当归属于作者还是应当保留在公共领域尚存争议的情况下,无论是立法还是司法都应当采取“疑者从无”的原则,将这部分价值暂时置于公共领域方为妥当。如果贸然采取赋权的做法,会导致整个社会交易和创新成本的无谓增加,并使原作品作者因此获得不当得利。


(二)大模型数据训练中对非作者价值的使用分析


对于大模型数据训练是否构成著作权侵权问题,尽管司法实践中有观点认为大模型未经许可大规模使用他人作品用于数据训练的行为落入著作权保护范围,构成了对他人作品复制权、改编权和信息网络传播权的侵害。但是,这种观点忽视了大模型数据训练对作品的利用行为本质上是对非作者价值的使用,具体论证如下。


首先,大模型数据训练行为的真实对象是作品中不受保护的元知识或者说元信息。尽管大模型的构建依赖海量作品数据的输入,且“投喂”的数据训练集规模越大、涵盖范围越广,其效果往往越佳。但这并不意味着大模型数据训练的直接对象就是作品本身。相反,其创建过程是通过特征提取、整理归纳及逻辑运算等手段,从海量作品数据中提取和淬炼不受保护的元知识。这些元知识揭示了作品表达背后的本质、逻辑关联及运算关系等,它们是作品信息中蕴含的规律性知识和逻辑关系的关键所在。简而言之,大模型的训练行为实际上聚焦于作品数据中的元信息,以挖掘和提炼知识的深层逻辑为目的。这正如同语言哲学认为,语言知识无外乎是人类为了进行交流信息而在特定群体间约定使用的一套符号,其运行的背后存在一套公共的、客观的逻辑形式。语言的表达行为,其实就是以语言中内在的、通用的逻辑形式和句法关系呈现思想的过程,这也意味着思想不同的构建方式所显现的表达也会不同。因此,语言表达中语言的形式、逻辑与技巧等归根结底就是一种元知识或知识树。它注重的是其中的语言逻辑本身,而非这种逻辑关系所型构的能够传情达意的具体化的语言表达。


虽然大模型在技术上会对训练数据进行一定的复制,但这些复制纯粹是为了提取元知识,获取知识树,而不是盗用作品具体表达的使用价值。这些元知识作为人类创造性思维的基本逻辑架构,实际上是人类创造的元器件,其本质上属于“思想”性范畴。思想构成了著作权法上公共领域的“坚强核心”。在思想形成的开放园地,任何人皆可摆脱价格与法律桎梏,自如运用并创作作品。这为不同作者开辟了广阔的表达空间,也捍卫了私法中的机会平等原则。而大模型使用元知识、元信息的行为与人类创作运用思想相仿,故在涉及非作者价值内容时,应先依据著作权法客体例外的公共领域规则,事先直接将其排除出保护门槛,而非运用事后的合理使用规则再行阻却。


其次,大模型数据训练行为并不会对作者造成著作权法意义上的“市场利益损害”。事实上,对大模型训练对象而言,其价值并非单独体现在某一作品之上,而恰是源自整个庞大作品数据集中累积的规律性知识及各种逻辑关系所蕴含的知识树的挖掘、运用和综合展现。例如,国内如文心一言这样的大模型,其训练依赖于千亿级参数的作品数据集。然而,在这个数据集中,每个单独的作品数据可能并不具备独立的经济价值。具言之,大模型训练对作品使用所呈现的非特定性与传统著作权法对作品使用的特定性之间存在本质的差异:前者致力于挖掘作品集合中的聚合价值,即重在发现这些作品的知识树及共通的逻辑规律与运算关系;后者则专注于精准维护在浩瀚的数据集中每个作品的个体价值,它更关注的是单个作品的表达性使用。尽管有学者洞察到大模型训练所需海量数据集产生的增值利益一般会超过普通作品,为了填补“小数据”时代的著作权法立法空白并满足数据产业发展需求,主张在立法层面构建大数据有限排他权。但是,这也为从公共领域视角反思和解释当下大模型数据训练中针对作品实施的非特定性使用行为引致的利益与损害状况提供了解释依据。事实上,美国Raw Story Media, Inc. v. OpenAI Inc.案的裁判理由正是基于该法理。在该案中,尽管原告指控被告OpenAI擅自将其出版的文章用于人工智能数据训练的行为构成侵权,但法院始终认为被告数据训练行为并没有造成原告法律上实际的、具体的、可认知的损害。更何况,当前著作权法所采取的产权界定模式,仍停留在传统特定作品保护模式时代。为了降低他人的信息成本负担,著作权法要求受保护的表达必须可以被感知、复制或以其他方式传达。


上述要件表明,著作权法对作品的保护仍须以个性化以及可感知、可描述等特定化的方式实现,侧重强调对作品中个体价值和具体表达形式的保护。然而,大模型利用的是作品信息中所蕴含的诸如创作逻辑规律等元知识,体现的是对作品集体功效及其展示出来的人类一般性创作规律与知识信息的运用。相较于拥有千亿级参数的作品数据集,原子化的单一作品所独立具有的价值可以说微乎其微,以至于传统著作权法基于单个作品所设立的激励机制几乎没有施展和回旋的空间。因此,大模型数据训练行为作为一种新型作品使用行为,其本质是对海量作品聚合价值的使用,虽然特定作者的作品价值被裹挟其中,但其并不具有传统著作权法所关注的作者表达之利益。


对此,可能会有不同观点认为,大模型数据训练虽不能确定其中单一作品的贡献,但仍可能对该作品潜在市场的合理报酬造成影响。对此,本文不以为然。首先,大模型数据训练技术的核心目标是发掘作品集合中所蕴含的聚合价值和通用创作逻辑,实际上这种聚合价值和逻辑与著作权法所强调的单一作品价值和逻辑之间不具有通约性。因为该聚合价值并非单个作品价值的简单累加,而是作品集合规模化之后所出现的新价值。尽管该增值利益的根源可追溯到原有作品所蕴含的价值潜力之上,但其绝大部分的价值实则源自大模型开发者资本投入和相关算法算力能力铸就,原作者既未参与增值创造,在该潜在价值被开发前又难有合理的预期。理论上,“‘知识产权损害’必须以事前视角而非事后视角测度激励⋯⋯只有能够被事先预见到的东西才是创新发生时可合理预期的”。若以事后视角来推度可能预见的市场,著作权人能将作品所有使用价值纳入预期的解释范围,这无疑陷入了前述著作权价值完全内部化的逻辑难题。实际上,当前的大模型数据训练市场的参与者多为资本雄厚的科技企业,个人作者因缺经济基础,在过去以及可预期的未来都难以涉足该潜在市场。因此大模型数据训练并没有以事前衡量为视角的著作权创新激励机制,作者若仅凭所谓的臆测性损害就能获得该部分利益的分配,既不符合其未参与后续价值形成的事实,也将使大模型开发者不能承受其重。


最后,该观点还忽视了大模型在作品数据训练过程中,通过作品集体利益的社会增值抵消原作者损益的情况。当前,通过数据训练构建起来的大模型正迅速演变为一种通用技术,对各个行业的创新活动几乎均会产生经济学上的溢出效应。这种溢出效应彰显正外部性向外释放对知识创新所具有的强大推动作用,并呈现明显的公共领域特性。这一特性内在根源在于将作品集合中所蕴藏的聚合价值归入公共领域,既保障了数据的公平利用不因作品权利叠加遮蔽,又避免了陷入新的数据“创新困局”。生成式人工智能大模型的运用,既节约了原作者创作的时间与精力成本,又有利于打破原来职业化创作者对创作市场的不当垄断,使更多的创作主体得以进入该市场,以确保文化市场的自由进入和作者之间的创作平等。这显然有利于社会整体创作市场的繁荣与创新,并弥补传统个体作者创作低效率所带来的社会成本损失。


三、公共领域视野下大模型内容生成行为之合法性边界


最后,值得探讨的是以大模型为技术基座的人工智能实施内容生成行为究竟是否侵害著作权人的利益?其专门模仿特定主体风格的生成行为是否构成著作权侵权?对于这些问题的回答不仅关系大模型应用技术的未来发展,也攸关新技术创作行为中著作权与公共领域的界限划分,该问题同样值得重视与探讨。


(一)大模型内容生成行为对表达替代的损害认定


大模型内容生成应用本质上是一种中立性的创作工具,它通常不会全面替代人类作者,除非其生成内容与受著作权法保护的作品构成相同或实质性相似,否则并不构成对人类创作表达的直接威胁。因此,如何准确判断大模型生成的内容是否构成了表达性替代以及应如何合理评估其造成的损害,就成为亟需回答的问题。


理论上,如下情形可能会导致对原作表达的实质性替代,需要加以规制:第一,算法失灵导致的实质性相似。真理与谬误往往仅有一步之遥。当大模型的原始算法架构存在设计缺陷,致使生成过程偏离正轨,未能对数据训练获得的元知识或者元信息进行算法演绎,而仅在训练数据层面执行表层的同义词替换、语态语序转化,或者对作品碎片加以删减、拼凑和杂糅等操作,就会产生类似“网络洗稿式”的内容。第二,经济实力较为有限的大模型开发者,其收集的作品数据集合相对较少。为提升大模型智能化程度,开发者用少量作品数据重复训练,致使生成的内容与被训练作品表达构成实质性相似,从而再现了原作表达。第三,当用户提示高度清晰,足以标准再现原作品。大模型的应用运行遵循“输入指令—输出结果”的模式。鉴于大模型对海量数据进行训练并收集了作品特征,只要用户的提示足够具体,就能将模型创作空间限缩至与具体训练作品的表达实质相似的程度。这些由大模型生成的内容无疑构成了对原作品表达的实质性替代,此时需要将其纳入著作权法的严格规制范围。


这与基础层的情况不同,在前端基础层大规模的作品数据训练阶段,纵然认为单个作者存在价值上的损害,但鉴于海量作品数据训练的事实,这种损害对个体作者而言其价值可能微乎其微。在传统民法理论中,这被称为“微额不利益”原则,即当“不利益过大时,赔偿义务人不能负荷;不利益微小时,赔偿权利人感受不深”。该种“微额不利益”,鲜少被纳入法律调控范畴。结合大模型作品数据训练行为,海量数据训练让大模型开发者难以负担高昂的交易成本,更加之因大模型所涉单个利益作品的价值甚微,甚至根本就没有使用其表达性价值。若因此对其赔偿实有小题大做之嫌,将其归入公共领域以豁免开发者责任,反而更能促进动态效率逻辑下的利益分配。这也契合“公共领域为主,著作权为特例”的知识产权核心理念。


然而,对大模型生成与训练作品实质性相似内容的行为进行防范规制,理由在于这种行为严重破坏了著作权法通过竞争及分工机制达成对公共领域的反哺,以促进文化繁荣的制度愿景。当作品的表达被著作权法分配给现有作者时,它既界定了作者的创作选择,也反过来限定了其他作者进行“分配性努力”的可能性。这种规制旨在限制对侵权人的逆向激励分配,就如同在创作的文化田野中筑起一道道无形的藩篱,避免作者在同一维度上的重复表达,从而推动人类文化的多元化发展。更何况大模型内容生成具备无限降低创作成本和提升创作效率的特性,在相当程度上具备替代人类作者创作的强大经济潜力。倘若不在应用后端借助实质性相似要件对大模型生成的内容进行严格地选择过滤和筛除排查,那么这种表达的替代对人类作者所带来的损害是赤裸裸和场景化的,必将使人类文化陷入长期的贫困状态,从而影响人类的创新。


不过,在此尚需回答的另一相关问题是,在应用层对大模型内容生成行为的损害认定是否足以保障著作权人的利益?因为倘若在后端的应用层能够有效遏制著作权侵权行为,那么便无须将侵权责任延伸至前端的基础层。本文认为结论是肯定的。姑且不论大模型基础层数据训练行为所蕴含的利益属于著作权人预期范围之外的非作者利益,仅在应用层通过对内容生成行为的损害救济,实际上已足以填平著作权人的利益损失,而毋庸溯至前端的基础训练行为。我国诸多司法判例表明,在复制并发行、改编或者信息网络传播等侵权行为引发的著作权纠纷中,省略对前端复制行为的认定,实际上仅须认定后续的发行、改编或者信息网络传播行为所造成的损害,该做法就足以填平著作权人的利益损失。同理,既然法律对于后续应用层内容生成行为的控制已足以填平著作权人的利益,则无须将停止侵权等有关责任扩展适用至大模型基础层的作品数据训练行为。正如学者所言,法律责任不只是理性个体为私利最大化承担的“义务”或“后果”,更是深层次交流方式与过程,承载主体间的交互功能。根据该见解,后端的责任配置和责任追究必然会引发倒逼大模型使用者对前端数据训练的瑕疵行为进行自我调适和纠正,即后端的责任配置将会回溯到前端行为的合法性调整上来。如此一来,在对应用层大模型内容生成行为的侵权遏制和损害赔偿已足以保障著作权人合理利益的情况下,理应在大模型前端开辟责任豁免的公共领域机制。因为通过后端责任的倒逼机制将促使前端的训练行为归于合法性自主,有助于实现大模型开发者行为的合法性自觉,从而助力大模型基础层自我纠错机制的触发与推进,最终实现大模型数据训练和内容生成的双协调创新发展。







请到「今天看啥」查看全文