1.非表达性使用理论之反思
大模型数据训练行为作为一种新型作品使用行为,其是否落入传统作者专有权的规制范围,对该问题的探讨既体现了著作权法适应新技术发展再体系化的制度自觉,又能有效折射著作权立法是否具有回应性的特质,因此对该问题的检视颇有意味。然而,需要注意的是,对于一切技术的法学分析,皆应在基础理论与现有规则的表达之间寻求解释的空间,从而发掘现有制度回应新技术的内在潜能。挖掘著作权法的深层理论结构,从而为大模型数据训练行为提供正当化基础是当前国内外研究的主流范式。马修·萨格所主张的非表达性使用便是对著作权法深层理论结构的挖掘。非表达性使用理论认为,不是为了享受、欣赏或理解的目的,不向公众传播作者原始表达的复制行为,不应被认为构成侵犯著作权。在这一理论视域下,作品被视为一种交流行为,其中著作权人扮演着话语表达者的角色,而其他人则享有回应的权利。因此,作者对作品的权利应当(1)严格限定在作品具体的交流用途之内,(2)并且需要与其他人的交流权利协调一致。申言之,根据非表达性的理论,著作权的主要功能是保护作者免受表达性替代的威胁,但作者在享受表达性权利的同时也应尊重他人的交流表达需求。鉴于著作权的保护范围被严格限制在表达性范畴之内,故而非表达性使用可作为一项独立的侵权抗辩事由。总之,非表达性使用理论通过界定独创性表达或者通过对交流表达功能的限定,在著作权法内部实际上构建起了专有权与公共领域的二元平衡结构。
尽管如此,非表达性使用并非一个明确的概念和成熟的理论。首先,非表达性使用难以涵摄所有作品的合法使用行为。例如,实用艺术品、计算机软件等特殊作品具有很强的功能性,如在此类作品表达之外再强调所谓的非表达性使用,则容易导致功能性判断与非表达性判断混淆。这将弱化对计算机软件、实用艺术品、建筑图纸等具备功能属性的特殊作品的法律保护。其次,在许多情况下,非表达性使用的概念本身就含糊不清。尽管在其可行性论证上,有学者主张“可凭借抽象的‘图式’来提高司法认知效率”。但表达性使用与非表达性使用之间的界限更多是一个语境和程度的问题,并非是一个易于描述的和具化的对象。这就好比思想与表达之间的界限始终是符号性和隐喻性的,并不是一种能够判定特定行为属于作者专有权范围还是公共领域范畴的预测性工具,而仅是一种事后描述,用于证明在其他更具体事实上的结论,或者为判决结果提供正当化的理据。同样,当法官在认定某一使用行为是否属于非表达性使用时,他们只会将争论的焦点从实质性问题转移到类型定义问题上。例如,大模型基于数百万原始蛋白质序列展开训练,可以生成跨越不同家族的功能性蛋白质序列。对于大模型针对蛋白质序列这种非传统客体进行训练是否属于非表达使用的问题,缺乏专业知识的法官要么深陷蛋白质序列定义的困境,要么只能无奈地使用与其相近的传统著作权客体类型类比推导。总之,在面临疑难的非表达性使用行为的判断时,该理论所倡导的功能主义判断方式最后只会沦为基于具体实在的客体类比方法,其最终的司法适用也会陷入与思想/表达二分法同样的理论困境和解释难题,从而导致相关结论经常性地悬而未决,直接影响法律的确定性与可预测性。
2.公共领域中非作者价值理论之提倡
那么,究竟应如何认定大模型数据使用他人作品的行为,本文认为应穿透表达性使用作为技术性法律术语的表象,从更为本质的公共领域价值维度对作品的新型使用行为作出科学界定。因为法律适用之任务不应是单纯逻辑地适用概念,而是需要进行广泛地价值评估,才能作出符合“法律之精神与意义”裁判。就大模型数据训练行为而言,其真正的问题并非在于对他人作品内容实体形态的复制与使用,而在于对该技术可预见的使用是否侵犯著作权人的特定具体利益。也就是,该种使用行为是否破坏了作者的利益结构,从而破坏了著作权法对作者的激励机制,以至于引发了启动著作权法保护的必要。本文认为,大模型所训练和使用的实际上是作品中的非表达性部分,它们在本质上属于公共领域的非作者价值要素,即其具有非专属于作者的属性,换而言之其不应被认定为属于作者专有权的范围。
事实上,从公共领域的价值维度考量,非作者价值要素的使用在著作权法中具有广泛的存在基础。从法经济视角分析,著作权法的主要功能是为了克服文化公共产品因市场失灵所导致的生产不足问题;而产权界定的目的在于将创造行为的外部收益内在化,让知识资源的生产和分配所产生的大部分盈余由权利人占有,从而实现对其创造行为的有效激励。同时按照产权发展的基础逻辑,鉴于著作权领域新技术的蓬勃发展和新市场的持续开拓,作品的市场价值将不断上扬,高出原作品价值的溢价也应被计入,故而著作权理应延展至作品信息所涵盖的所有价值。然而,若从公共领域的视角审视,这种作品价值完全内部化的做法,可能使著作权制度变得既无效率,也无公正可言。一方面,绝对保护会增加社会成本,却无额外收益。产权界定总是伴随着成本,特别是对于作品这类无形且高度非竞争性的信息商品而言,全面内部化其外部性势必导致后续边际界权成本超出边际收益。因此,在权衡市场效率利弊后,必然有部分作品价值外溢于公共领域。另一方面,著作权领域的创作都具有代际传承性。人类创作力扎根于公共领域历经漫长岁月所积淀的知识成果,每一代创作者都需要汲取前人的智慧。这种代际传承的道德性必然要求享有保护的创作者有义务允许后续作者探索和使用受保护的材料,并将其作为后续创作的来源和基础。
当然,从实际情况看,著作权制度巧妙地为后续创作者预留了利用公共领域非作者价值的制度性空间,该安排体现了对知识自然溢出效应的客观尊重。即作品不应归属作者专属的元素或者说非作者价值要素都应被外溢到公共领域,为相关创新行为提供源源不断的资源支持。非作者价值的使用理论在新型作品使用行为所引发的案件中实际上已得到了运用。例如,在索尼与环球公司案中,原告试图构建许可制度以独占电视节目易时播放功能所带来的增值价值。然而,法院对非作者价值使用理论的运用为该案提供了别样的洞见。法院强调易时技术的增值利益并非直接源于原告的创造性劳动,而是索尼及其用户共同探索并对电视节目创新使用所产生的一种新兴价值形态,这种价值独立且未侵蚀原告的原始创作权益。因此,此类由公共领域所催生创新而衍生出的利益,从公平性与资源合理配置的视角出发,不应为作者所独享,其本质是技术创新对原作品价值增值的一种利益溢出。对这部分利益究竟应当归属于作者还是应当保留在公共领域尚存争议的情况下,无论是立法还是司法都应当采取“疑者从无”的原则,将这部分价值暂时置于公共领域方为妥当。如果贸然采取赋权的做法,会导致整个社会交易和创新成本的无谓增加,并使原作品作者因此获得不当得利。
对于大模型数据训练是否构成著作权侵权问题,尽管司法实践中有观点认为大模型未经许可大规模使用他人作品用于数据训练的行为落入著作权保护范围,构成了对他人作品复制权、改编权和信息网络传播权的侵害。但是,这种观点忽视了大模型数据训练对作品的利用行为本质上是对非作者价值的使用,具体论证如下。
首先,大模型数据训练行为的真实对象是作品中不受保护的元知识或者说元信息。尽管大模型的构建依赖海量作品数据的输入,且“投喂”的数据训练集规模越大、涵盖范围越广,其效果往往越佳。但这并不意味着大模型数据训练的直接对象就是作品本身。相反,其创建过程是通过特征提取、整理归纳及逻辑运算等手段,从海量作品数据中提取和淬炼不受保护的元知识。这些元知识揭示了作品表达背后的本质、逻辑关联及运算关系等,它们是作品信息中蕴含的规律性知识和逻辑关系的关键所在。简而言之,大模型的训练行为实际上聚焦于作品数据中的元信息,以挖掘和提炼知识的深层逻辑为目的。这正如同语言哲学认为,语言知识无外乎是人类为了进行交流信息而在特定群体间约定使用的一套符号,其运行的背后存在一套公共的、客观的逻辑形式。语言的表达行为,其实就是以语言中内在的、通用的逻辑形式和句法关系呈现思想的过程,这也意味着思想不同的构建方式所显现的表达也会不同。因此,语言表达中语言的形式、逻辑与技巧等归根结底就是一种元知识或知识树。它注重的是其中的语言逻辑本身,而非这种逻辑关系所型构的能够传情达意的具体化的语言表达。
虽然大模型在技术上会对训练数据进行一定的复制,但这些复制纯粹是为了提取元知识,获取知识树,而不是盗用作品具体表达的使用价值。这些元知识作为人类创造性思维的基本逻辑架构,实际上是人类创造的元器件,其本质上属于“思想”性范畴。思想构成了著作权法上公共领域的“坚强核心”。在思想形成的开放园地,任何人皆可摆脱价格与法律桎梏,自如运用并创作作品。这为不同作者开辟了广阔的表达空间,也捍卫了私法中的机会平等原则。而大模型使用元知识、元信息的行为与人类创作运用思想相仿,故在涉及非作者价值内容时,应先依据著作权法客体例外的公共领域规则,事先直接将其排除出保护门槛,而非运用事后的合理使用规则再行阻却。
其次,大模型数据训练行为并不会对作者造成著作权法意义上的“市场利益损害”。事实上,对大模型训练对象而言,其价值并非单独体现在某一作品之上,而恰是源自整个庞大作品数据集中累积的规律性知识及各种逻辑关系所蕴含的知识树的挖掘、运用和综合展现。例如,国内如文心一言这样的大模型,其训练依赖于千亿级参数的作品数据集。然而,在这个数据集中,每个单独的作品数据可能并不具备独立的经济价值。具言之,大模型训练对作品使用所呈现的非特定性与传统著作权法对作品使用的特定性之间存在本质的差异:前者致力于挖掘作品集合中的聚合价值,即重在发现这些作品的知识树及共通的逻辑规律与运算关系;后者则专注于精准维护在浩瀚的数据集中每个作品的个体价值,它更关注的是单个作品的表达性使用。尽管有学者洞察到大模型训练所需海量数据集产生的增值利益一般会超过普通作品,为了填补“小数据”时代的著作权法立法空白并满足数据产业发展需求,主张在立法层面构建大数据有限排他权。但是,这也为从公共领域视角反思和解释当下大模型数据训练中针对作品实施的非特定性使用行为引致的利益与损害状况提供了解释依据。事实上,美国Raw Story Media, Inc.
v.
OpenAI Inc.案的裁判理由正是基于该法理。在该案中,尽管原告指控被告OpenAI擅自将其出版的文章用于人工智能数据训练的行为构成侵权,但法院始终认为被告数据训练行为并没有造成原告法律上实际的、具体的、可认知的损害。更何况,当前著作权法所采取的产权界定模式,仍停留在传统特定作品保护模式时代。为了降低他人的信息成本负担,著作权法要求受保护的表达必须可以被感知、复制或以其他方式传达。
上述要件表明,著作权法对作品的保护仍须以个性化以及可感知、可描述等特定化的方式实现,侧重强调对作品中个体价值和具体表达形式的保护。然而,大模型利用的是作品信息中所蕴含的诸如创作逻辑规律等元知识,体现的是对作品集体功效及其展示出来的人类一般性创作规律与知识信息的运用。相较于拥有千亿级参数的作品数据集,原子化的单一作品所独立具有的价值可以说微乎其微,以至于传统著作权法基于单个作品所设立的激励机制几乎没有施展和回旋的空间。因此,大模型数据训练行为作为一种新型作品使用行为,其本质是对海量作品聚合价值的使用,虽然特定作者的作品价值被裹挟其中,但其并不具有传统著作权法所关注的作者表达之利益。
对此,可能会有不同观点认为,大模型数据训练虽不能确定其中单一作品的贡献,但仍可能对该作品潜在市场的合理报酬造成影响。对此,本文不以为然。首先,大模型数据训练技术的核心目标是发掘作品集合中所蕴含的聚合价值和通用创作逻辑,实际上这种聚合价值和逻辑与著作权法所强调的单一作品价值和逻辑之间不具有通约性。因为该聚合价值并非单个作品价值的简单累加,而是作品集合规模化之后所出现的新价值。尽管该增值利益的根源可追溯到原有作品所蕴含的价值潜力之上,但其绝大部分的价值实则源自大模型开发者资本投入和相关算法算力能力铸就,原作者既未参与增值创造,在该潜在价值被开发前又难有合理的预期。理论上,“‘知识产权损害’必须以事前视角而非事后视角测度激励⋯⋯只有能够被事先预见到的东西才是创新发生时可合理预期的”。若以事后视角来推度可能预见的市场,著作权人能将作品所有使用价值纳入预期的解释范围,这无疑陷入了前述著作权价值完全内部化的逻辑难题。实际上,当前的大模型数据训练市场的参与者多为资本雄厚的科技企业,个人作者因缺经济基础,在过去以及可预期的未来都难以涉足该潜在市场。因此大模型数据训练并没有以事前衡量为视角的著作权创新激励机制,作者若仅凭所谓的臆测性损害就能获得该部分利益的分配,既不符合其未参与后续价值形成的事实,也将使大模型开发者不能承受其重。
最后,该观点还忽视了大模型在作品数据训练过程中,通过作品集体利益的社会增值抵消原作者损益的情况。当前,通过数据训练构建起来的大模型正迅速演变为一种通用技术,对各个行业的创新活动几乎均会产生经济学上的溢出效应。这种溢出效应彰显正外部性向外释放对知识创新所具有的强大推动作用,并呈现明显的公共领域特性。这一特性内在根源在于将作品集合中所蕴藏的聚合价值归入公共领域,既保障了数据的公平利用不因作品权利叠加遮蔽,又避免了陷入新的数据“创新困局”。生成式人工智能大模型的运用,既节约了原作者创作的时间与精力成本,又有利于打破原来职业化创作者对创作市场的不当垄断,使更多的创作主体得以进入该市场,以确保文化市场的自由进入和作者之间的创作平等。这显然有利于社会整体创作市场的繁荣与创新,并弥补传统个体作者创作低效率所带来的社会成本损失。