专栏名称: 新技术法学
究新技术法理,铸未来法基石
目录
相关文章推荐
保险一哥  ·  2025年第6期保险自媒体红人千人榜 ·  昨天  
51HR派  ·  本周看点 | ... ·  昨天  
传媒招聘那些事儿  ·  哔哩哔哩:时尚活动运营 ·  4 天前  
传媒招聘那些事儿  ·  【简历提升】挖掘亮点:提升眼界思路,优化简历! ·  5 天前  
51好读  ›  专栏  ›  新技术法学

黄锫:人工智能大模型训练数据的风险类型与法律规制

新技术法学  · 公众号  ·  · 2025-02-01 22:08

正文

【内容摘要】 训练数据对于人工智能大模型的开发具有不可或缺的重要作用。但是基于我国现行的法律制度和大模型的技术原理,会存在训练数据侵权风险、训练数据偏差风险和训练数据泄露风险等三种风险类型。人工智能大模型训练数据的侵权风险主要包括大模型预训练时使用作品类数据可能会违反《著作权法》的规定、使用个人信息数据可能会违反《个人信息保护法》的规定等两种情形。人工智能大模型训练数据的偏差风险主要包括价值性偏差风险、时效性偏差风险和真实性偏差风险等三种情形。人工智能大模型训练数据的泄露风险主要包括面向开发者的数据泄露风险、面向攻击者的数据泄露风险等两种情形。可以通过调整现行立法来满足人工智能大模型开发者的训练数据需求,通过元规制的方式激励人工智能大模型开发者防范训练数据的偏差风险,以及通过加强法定义务督促人工智能大模型开发者防范训练数据的泄露风险。



【关键词】 生成式人工智能 大模型 训练数据 法律规制


文章来源:《政法论丛》2025年第1期

因篇幅所限,省略原文注释及参考文献。



人工智能大模型也被称为生成式人工智能大模型(Large Generative AI Models, LGAIMs),是指经过预先数据训练能够生成诸如文本、图像、音频等内容的高级机器学习模型,它不同于主要用来预测或分析的传统人工智能模型。人工智能大模型的典型代表是GPT模型(Generative Pre-trained Transformer,生成式预训练转换模型),GPT 模型正是掀起人工智能科技研发浪潮的现象级智能应用产品—— ChatGPT 的核心模块。在人工智能大模型的开发中,超大体量的训练数据是不可或缺的基本要素,它的数量和质量都会对大模型的效能产生重要影响,其采集和使用过程中可能存在的风险也日益受到关注。虽然我国已通过颁布《生成式人工智能服务管理暂行办法》构建了人工智能大模型的初步法律规制框架,但是它仅能在一定程度上实现对大模型输出端侵权问题的法律规制,而对于输入端的侵权问题则鞭长莫及。因此,为了确保我国人工智能大模型合法、高效、平稳地发展,形成“人工智能促进型的数据制度”,亟需深入分析可能存在哪些训练数据风险,并进而探讨有效降低这些风险的法律规制措施,尽可能避免创新技术发展过程中的数据风险转化为实际的危害后果,努力消解这一科技风险规制领域内的科林格里奇困境( Collingridge’s Dilemma)。由此,本文依据韦伯式理想类型的研究方法,将人工智能大模型训练数据中可能存在的主要风险区分为数据侵权风险、数据偏差风险和数据泄露风险三种理想类型,依次研究它们各自生成的制度缘由或技术原理,并探讨有效防范风险的法律规制措施,以期为我国人工智能大模型的发展提供一点理论贡献。


一、人工智能大模型训练数据的侵权风险及成因


人工智能大模型开发中的预训练过程就是训练数据的处理过程,这一过程使用的超大规模训练数据中包含了各种不同类型的数据,承载了多元化的权益形态。由于我国为了保护数据主体的权益已经制定了诸多法律规则,因此当开发者在大模型预训练过程中处理这些数据时,就可能会违反这些法律规则,产生训练数据的侵权风险。依据人工智能的技术特征,开发者进行大模型预训练时的主要侵权风险集中在著作权侵权风险与个人信息侵权风险两种情形之上。

(一)训练数据的著作权侵权风险

以文本、图片、音频、视频、代码等形式表现出来的作品类数据是大模型训练数据中的重要组成部分,无论开发者通过何种渠道获取的训练数据,都会包含大量此类数据。例如,大模型预训练经常使用的英文开源数据库维基百科中包含了超过600万篇各类文章,中文开源数据库MNBVC中也包含了大量书籍、杂志、论文等,目前数据规模已超过34TB。在开发者收集和使用这些作品类数据进行大模型预训练时,不可避免地会涉及对著作权人享有权利的作品进行复制的行为。如开发者(包括训练数据集的制作者)通过网络爬虫技术从互联网上获取作品类数据的过程,其实就是将作品复制到本地硬盘介质中的过程。同理,当开发者将收集的作品类数据输入大模型中进行预训练时,也一样离不开对作品的复制行为。《纽约时报》就曾提起诉讼向OpenAI公司索赔数十亿美元,认为后者非法复制使用了数以百万计的该报上的文章用于ChatGPT大模型的训练,侵害了其享有的著作权。近期也有三位美国作者起诉大模型开发公司Anthropic PBC,指控其复制使用他们的作品及其他数十万本没有经过授权的书籍训练Claude大模型。可以预见,随着人工智能大模型开发浪潮的汹涌,此类法律纠纷也将会日益频繁地发生。

根据我国《著作权法》第10条第1款第5项的规定,著作权人享有的权利中也包含了对作品进行复制的权利。因此,在没有法定例外情形时,我国大模型的开发者依法应征得著作权人的许可后才能合法地复制、使用这些作品进行大模型预训练活动。然而,大模型训练数据的体量非常巨大,如GPT系列模型预训练使用的开源数据库中,BooksCorpus包含了7400万个句子、Wikipedia包含了42亿个词、The Pile包含了825GB数据,有学者曾指出GPT- 3时代的预训练数据就已经包含高达45TB 大小的文本数据。在这么庞大的训练数据中,包含了海量的作品,所涉及的作者会遍布全世界各个地域。如果要求开发者就其中的每个作品都获得著作权人的许可,那么仅此项开发成本就会极其高昂,几乎属于不可能完成的任务,将会给大模型预训练造成难以逾越的法律障碍。并且,如果硬性要求开发者必须获得著作权人的许可,那么在大模型开发的科技浪潮中,或许只能迫使开发者明里或暗里违反这一规则,最终形成“违法过剩”的尴尬局面。

为了应对大模型预训练活动可能会违反《著作权法》的问题,现有研究主要提出了三种解决方案:一是将大模型预训练使用数据过程中的作品复制行为定义为“过程性复制”,认为其不属于《著作权法》意义上的复制行为,从而推导出大模型预训练并未侵害著作权人享有的权利;二是将大模型预训练中使用作品的行为定义为“非作品性使用”,认为其不属于《著作权法》调整的范围,从而推导出大模型预训练并未侵害著作权人享有的权利;三是认为应当在立法中单独设定机器学习合理使用条款,明确大模型预训练中对作品使用的合法性。

在这三种应对方案中,前两种方案具有相似性,都是通过学理解释方法将《著作权法》中的不确定法律概念(“复制”和“使用作品”)进行限缩解释,进而将大模型预训练复制、使用作品的行为排除在《著作权法》的适用范围之外。这两种方案虽然都具有理论上的说服力,但毕竟在我国成文法中并未明确承认诸如“过程性复制”“非作品性使用”之类的学理概念,因而大模型预训练使用作品的行为始终会面临基于《著作权法》条文的文义解释的质疑。第三种方案承认了目前《著作权法》关于合理使用的规定很难为大模型预训练使用作品的行为提供直接合法性依据。因为在该法第 24条设定的13种著作权合理使用情形中,与大模型开发最可能相关的是第24条第1款第6 项规定的“为科学研究少量复制已发表作品,供科研人员使用”的情形。虽然大模型预训练确实属于科学研究活动,但是《著作权法》中的这一规定针对的是公益性质的科学研究活动,并不适用于以盈利为目的的商业化科研活动。目前我国大模型的开发者主要是商业性的大型互联网公司(如百度、阿里、腾讯、字节跳动等),这些商业公司投资此类科研活动的目的在于谋取更多的商业利益。虽然对商业利益的追求在大模型的发展过程中是不可避免的,甚至商业盈利是推动大模型创新技术发展的最重要动力之一。但是,这也就同时意味着不能适用《著作权法》中的这一合理使用制度来证成大模型预训练使用作品行为的合法性。由此,第三种方案提出可以通过修改《著作权法实施条例》或在人工智能立法中设立专门规定应对这一合法性问题。相较而言,第三种方案更具现实可行性,当然这种方案也从侧面体现出,根据现行《著作权法》的规定,大模型预训练使用作品的行为确实存在侵害著作权的可能性。

由此可见,无论在理论上如何对大模型预训练使用作品的行为进行合法性证成,都难以否定在现行《著作权法》制度框架下,大模型使用作品类数据进行预训练的活动存在着著作权侵权风险。

(二)训练数据的个人信息侵权风险

大模型预训练数据中另一重要组成部分是包含个人信息的数据。由于开发者使用个人信息数据进行大模型预训练的行为属于典型的个人信息处理活动,因此应当适用我国《个人信息保护法》的规定,且可能违反其中诸多法律规则的设定。

具体而言,依据我国《个人信息保护法》第4 条的规定,“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”。大模型预训练所处理的个人信息数据就是以电子方式记录的与已识别或者可识别的自然人有关的各种信息。开发者在使用这些个人信息数据进行大模型预训练时,可能会产生以下个人信息侵权风险:

1.《个人信息保护法》第13条第1款第1项要求除特殊情形之外,处理个人信息的活动原则上都应当经过信息主体同意后才能进行。这意味着作为信息处理者的大模型开发者在使用个人信息数据进行预训练时,依法应当事先获得信息主体的同意,否则就不能处理个人信息数据。然而,由于大模型所使用的训练数据体量巨大,其中包含的个人信息数据也同样体量巨大。如果要求开发者依据法律要求获得每位信息主体的同意后,才能将个人信息数据用于大模型预训练,那么其成本将远超开发者所能承受的范围,实际上也是一项不可能完成的任务。这会导致开发者要么放弃大模型的研发,要么在违法状态中强行进行大模型预训练,无论如何都会对大模型创新技术的发展产生阻碍。

2.《个人信息保护法》第13条第1款第6 项规定,个人信息处理者如果“在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”,则无需取得信息主体的同意。这意味着,大模型开发者如果在“合理范围”内使用个人自行公开的个人信息(如高校教师自己公布在官方网站上的联系方式、学术简历等),或者通过其他合法途径公开的个人信息(如国家机关依法公开的个人信息)进行大模型预训练,就无需经过信息主体的同意,属于合法的个人信息处理行为(下文简称这些信息为已公开个人信息)。然而,在大模型的技术语境中,什么是处理已公开个人信息的“合理范围”却并不容易判断。目前个人信息保护理论上主要存在“目的限定原则”与“场景理论”两种判断“合理范围”的标准,前者是指个人信息处理活动的“合理范围”应当限定在信息主体公开个人信息的初始目的之上,后者认为应当依据具体场景的差异来确定已公开个人信息处理的“合理范围”。然而,这两种判断标准在大模型预训练中都难以顺利适用:

其一,人工智能大模型的主要技术原理是在预训练阶段挖掘训练数据中包含的词元(token)间概率分布规律,并以参数形式保存于大模型之中,然后依据这种词元间概率分布规律推导出用户需求的信息。例如ChatGPT就是由OpenAI公司在预训练阶段通过分析海量训练数据中自然语言的词元间概率分布规律,建构的包含超大规模参数的大模型应用。当ChatGPT的用户以自然语言形式输入提示词(promote)时,大模型就根据预训练阶段掌握的词元间概率分布规律,以用户输入的提示词为基础,计算后续词出现的概率分布,然后选择概率最高的词输出。接着,输出的词与用户的提示词一起又被大模型作为计算后续词概率分布的基础。这种自回归(autoregressive )过程将会反复多次,最终通过“预测下一个词”的方式形成用户可以理解的输出信息,这一技术原理也被学者称为“基于概率的文本生成方式”。在这一技术过程中,即使对于开发者而言,大模型预训练时究竟如何处理个人信息数据以及从中发现了何种词元间概率分布规律都是不可知的,已经形成了完全的技术黑箱,以至于包括埃隆·马斯克( Elon Musk)在内的1000多名专业人士曾联名签署公开信呼吁暂停强于GPT-4的大模型开发至少六个月。这意味着,开发者在将个人信息数据用于大模型预训练时,从技术角度而言就无法做到将其限定在特定目的之上,也更不可能限定在信息主体公开个人信息时的初始目的之上。

其二,大模型中包含了动辄数以亿计的参数,超大规模的参数量使大模型具备了涌现(emergent )的能力。这种能力是指一个系统从量变积累达到质变的飞跃过程,它是模型在其规模(如参数量、计算量、训练数据量等的规模)扩展超过一定阈值后所具备的能力,这种能力是小模型所不具备的。也即,当模型的规模扩大到一定程度后,大模型可以在没有经过事先具有针对性的数据训练的情况下,根据用户输入的提示词完成有效信息的输出。大模型的这种涌现能力意味着训练数据中的个人信息数据会在超出开发时预设的场景中被处理,即使开发者也无法控制或者获知个人信息数据可能会被处理的所有场景类型,也就更加难以实现依据场景的差异确定已公开个人信息数据处理的“合理范围”。可见,在大模型的技术语境中,无论是“目的限定原则”抑或“场景理论”都难以判断预训练中已公开个人信息处理的“合理范围”,这也导致大模型预训练始终存在着超越“合理范围”处理已公开个人信息的侵权风险。

由此可见,在我国《个人信息保护法》目前设定的制度框架下,开发者使用个人信息数据进行大模型预训练活动时,可能会对信息主体的个人信息权益产生侵害,存在个人信息保护方面的侵权风险。


二、人工智能大模型训练数据的偏差风险及成因


人工智能大模型训练数据存在的第二种风险是数据偏差风险,它是指因大模型训练数据本身的质量缺陷而导致输出负面信息内容的问题。由于大模型生成信息内容的基础在于训练数据,因此训练数据本身的质量高低直接决定了输出信息内容质量的高低,训练数据的偏差会带来输出信息内容的偏差。我们可以将人工智能大模型训练数据的偏差风险区分为价值性偏差风险、时效性偏差风险和真实性偏差风险三种类型,它们都源于大模型内生的技术特征。

(一)训练数据的价值性偏差风险

训练数据的价值性偏差风险是指由于大模型预训练所使用的训练数据中包含了歧视、暴力、情色等具有价值偏差的内容,导致大模型学习后输出的信息中也包含了具有类似价值偏差的内容。在互联网时代,大模型如果长期输出这种包含价值偏差的信息内容,可能导致网络空间多元信息纠偏机制的破坏、公共价值形塑的困难、错误观点的病毒式传播、意识形态传送机的形成等危害后果,乃至波及公共政策的有效作出、执行与反馈,因此需要重点加以防范。

训练数据的价值性偏差风险主要源于大模型预训练使用了超大规模的无人工标注数据。传统上的人工智能模型训练大都使用人工标注数据进行,因为人工标注数据的质量相对较高、训练技术难度较低。但人工标注数据的采集难度很大、数据标注成本很高,因此训练数据的规模也十分有限。而GPT类人工智能大模型在开发时克服了技术上的障碍,实现了使用无人工标注数据进行大模型预训练的模型能力,由此这一预训练阶段也被称为模型的无监督学习阶段。无人工标注数据虽然较之人工标注数据而言质量较低,但收集难度小、训练成本较低,因而在互联网时代训练数据的规模可以近乎不受限制地扩大,便利形成超大规模训练数据集。正是由于能够使用超大规模的无人工标注数据进行机器学习,大模型在预训练时才能更有效地挖掘蕴含在训练数据中的词元间概率分布规律,实现高度类人化、智能化的信息输出。

然而,使用超大规模的无人工标注数据进行大模型预训练也带来了显著的负面效应。无人工标注数据中往往包含了大量涉及歧视、暴力、情色等价值偏差的内容。当大模型基于这些数据进行预训练时,它所挖掘出的词元间概率分布规律中也包含了类似的偏差内容,这就导致输出的信息中同样会包含大量存在价值偏差的内容,出现“偏见进、偏见出”( Bias in, Bias out)的现象。当然,大模型开发者也意识到了这一问题,因此会从技术上防止大模型输出包含价值偏差的信息内容。但是现有技术上的调整并不能完全杜绝此类风险的出现,这是因为:

1.开发者可以使用微调(Fine-Tuning)技术来减少大模型输出价值偏差的信息内容,但是并不能完全杜绝大模型输出具有价值偏差的信息内容。大模型的微调是指开发者经过无监督学习阶段对大模型进行预训练、使其掌握训练数据中的词元间概率分布规律之后,再使用经过人工标注且包含与人类价值对齐(Value Alignment)的特定领域训练数据集对大模型进行训练,也即进行模型的监督学习阶段。在监督学习阶段,由于使用的是包含与人类价值对齐的人工标注数据,因此可以使大模型经过训练后也掌握与人类价值对齐的词元间概率分布规律,从而在一定程度上减少大模型输出具有价值偏差的信息内容。

但是,如前所述,大模型的机器学习过程呈现出技术黑箱的特征,开发者自身并不确切掌握大模型究竟从训练数据中发现了何种词元间概率分布规律。这意味着开发者也不知道在海量的大模型参数中,究竟哪些会导致模型输出包含价值偏差的信息内容,也就很难对大模型可能输出的价值偏差信息进行全面的微调矫正。于是,开发者只能要么运用人工标注数据对大模型进行不具针对性的宽口径微调,要么在发现大模型输出了价值偏差信息内容后再进行具有针对性的微调。然而,人工标注数据的体量毕竟有限,远不及预训练阶段无人工标注数据的体量。由此,宽口径微调并不能完全消除价值偏差信息内容的输出,事后的微调也只能被动地防范后续类似价值偏差信息内容的输出,漏网之鱼不可避免,微调技术也就难以完全防止大模型输出具有价值偏差的信息内容。

2.开发者可以运用基于人类反馈的强化学习技术(Reinforcement Learning with Human Feedback)使人工智能大模型输出的信息与人类价值对齐,但是也不能完全杜绝大模型输出具有价值偏差的信息内容。基于人类反馈的强化学习技术是指为了加速人工智能大模型的收敛速度、优化收敛方向,开发者引入人工评价作为大模型输出信息内容的额外奖励。也即,开发者通过雇佣工作人员与大模型进行对话,对大模型就相同问题的不同回复进行排名,并用这些排名数据训练一个奖励模型,再用这个奖励模型对大模型之后的回复进行排名,使大模型在今后遇到类似情景时输出排名更好的回复,促进大模型的迭代进化,输出与人类价值对齐的信息内容,这一技术的运用也被称为大模型的强化学习阶段。

虽然基于人类反馈的强化学习技术较之微调技术而言,更能具有针对性地提高大模型输出的信息内容与人类价值对齐,但是它的实现需要雇用大量的工作人员与大模型进行对话、打分、反馈,所需支出的人工成本非常高昂。并且,囿于人类自然禀赋的限制,由人工进行对话样本的编写选择、打分排名,必然会存在效率不高的问题,导致这一阶段可以优化的模型参数范围远不能覆盖大模型在预训练的无监督学习阶段形成的参数范围。因此,基于人类反馈的强化学习技术也只能减少大模型输出价值偏差的信息内容,同样不能完全防止大模型输出价值偏差的信息内容。

3. 大模型的技术原理决定了开发者不能通过直接删除的方式及时防止大模型输出价值偏差的信息内容。大模型储存信息数据的技术原理与传统上硬盘介质储存信息数据的技术原理截然不同:大模型本身并不储存预训练时使用的海量训练数据,而只是以模型参数的形式储存预训练阶段发现的词元间概率分布规律。然后根据这种词元间的概率分布规律,基于用户输入的提示词以“预测下一个词”的方式输出概率最高的后续信息内容。因此,即使开发者发现大模型输出了包含价值偏差的信息内容,也不能像传统上操作硬盘介质中的数据一样,通过简单的直接删除操作来消除这些价值偏差的信息内容,而是需要通过使用新的训练数据对模型进行再次训练,调整相应的模型参数之后才能予以矫正。

并且,目前大模型的训练成本非常高,不是随时随地可以进行的简单操作。例如在斯坦福大学发布的《2024年人工智能指数报告》(Artificial Intelligence Index Report 2024)中显示,人工智能大模型的训练成本在持续攀升,OpenAI的GPT-4的训练成本已经在7800万美元左右,而谷歌的Gemini Ultra的训练成本甚至高达1.91亿美元。因此,即使开发者发现大模型输出了具有价值偏差的信息内容,也有意愿进行积极矫正,但受限于高昂的训练成本,这种矫正活动并不能随时随地进行,总会存在相应时间差。这也就意味着在这一必然存在的时间差内,事实上是无法有效防止大模型继续输出具有价值偏差的信息内容的。

(二)训练数据的时效性偏差风险

训练数据的时效性偏差风险是指由于大模型使用的训练数据具有时效上的滞后性,难以即时融合最新的数据,由此,其在预训练阶段所挖掘出的词元间概率分布规律也就不能反映即时的信息状态,从而导致大模型输出的信息产生了相应的时效滞后性。

训练数据的时效性偏差风险主要源于大模型所采用的预训练技术方案。所谓预训练技术是指大模型在完成特定任务之前,由开发者运用算力和数据对模型进行预先训练,使模型分析掌握训练数据中包含的词元间概率分布规律,然后再根据用户的指令,计算输出相应的信息内容。正如前文曾提及的,在这一技术过程中,大模型对于训练数据并非采用传统上硬盘介质的存储方式,而是将通过数据分析发现的词元间概率分布规律保存在模型的参数中,作为之后输出信息的技术管道。

这种技术特征从三个方面决定了训练数据时效性偏差的存在:一是由于大模型并不储存训练数据本身,因此在大模型投入实际使用之后,开发者即使能够收集到最新的训练数据,也不能通过简单地复制拷贝将新的数据及时加入大模型中,而是需要等到启动下一次大模型迭代训练之后,才能使大模型吸收最新的数据信息。这段时间差也就导致大模型预训练使用的数据总会与最新数据之间存在时效上的差异,输出的信息也就会存在滞后性。

二是由于大模型训练需要耗费巨大的算力资源,训练成本非常高,即使是资金雄厚的开发者也难以做到随时随地进行大模型迭代训练。因此,大模型本身不能像搜索引擎一样即时检索最新的信息数据,这就致使大模型的训练数据总会存在与最新数据之间的时间空白。例如当ChatGPT刚推出时,它所基于的GPT-3.5的预训练数据只截至2021年12月。即使是2023年11月出现的GPT-4 Turbo,它的训练数据也只截至2023年4月,中间始终存在一定时间段内的数据空白,并不能及时跟进最新的数据。

三是虽然目前开发者可以通过联网的方式解决用户获取最新数据的问题(如GPT-4 Turbo就提供了联网检索功能),但是这种方式并非迭代升级大模型本身,而只是用搜索引擎检索最新网络信息的方式来弥补大模型训练数据的时效滞后性,并未从根本上解决训练数据时效性偏差的问题。

面对这一问题,目前人工智能领域中最新的技术进展是运用检索增强生成技术(Retrieval-Augmented Generation,RAG)来缓解训练数据的时效滞后性。检索增强生成技术(RAG)是指给大模型加上一个外挂知识库,外挂知识库中的数据可以及时更新,大模型系统运行时会先在知识库中进行检索,然后再根据检索结果进行内容生成。由于外挂知识库中的检索结果能够确保时效性,据此进行的大模型信息生成相应地也能够较好地确保其时效性。检索增强生成技术的使用在很大程度上缓解了大模型训练数据的时效滞后性,不过毕竟它也并非是通过迭代升级大模型本身来解决这一问题的,因此对于那些没有使用检索增强生成技术的大模型而言,训练数据的时效性偏差风险依然存在。

(三)训练数据的真实性偏差风险

训练数据的真实性偏差风险是指由于大模型是根据预训练过程中掌握的词元间概率分布规律来计算推导输出信息,这就导致大模型输出的信息会出现虽然符合模型预训练时已掌握的词元间概率分布规律,但却与真实情况不相符合的现象,这也就是大模型的幻觉(hallucination)问题。

训练数据的真实性偏差风险同样源于大模型的预训练技术方案。如前文所述,大模型是通过预训练掌握词元间概率分布规律,然后依据这些词元间的概率分布规律并基于用户输入的提示词推算出概率最高的后续信息内容予以输出。这种技术方案意味着大模型输出的只是最符合其在预训练过程中掌握的词元间概率分布规律的信息内容,而不是最具真实性的信息内容。于是,就会出现大模型输出的信息内容虽然符合其在预训练阶段掌握的词元间概率分布规律,但却并不符合真实情形的幻觉现象,这也正是大模型为何会“一本正经地胡说八道”的技术根源。

大模型存在的幻觉现象可以区分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination )两种类型。前者是指大模型生成的信息内容与客观事实不一致的情形,后者则是指大模型生成的信息内容与用户输入的指令或其他文本信息不一致,出现了错误或逻辑上的矛盾。例如在一项著名的研究中,研究人员向大模型输入问题“谁是第一个在月球上行走的人?”大模型输出的答案是“ Charles Linbergh”,但客观事实却应当是“Neil Armstrong”,这就属于事实性幻觉。同一项研究中,研究人员要求大模型对输入的一篇新闻文稿进行内容总结并形成摘要,结果大模型生成的内容摘要将文稿中新闻事件的发生时间由“2023年10 月”错误地生成为“ 2006年10 月”,这就属于忠实性幻觉。

大模型存在的这些幻觉现象会造成诸多风险,主要包括:一是由于大模型具备了通过自然语言接口与用户进行交流的能力,用户在大模型高科技样态的感染之下会产生高度的信赖感。这种对技术的高度信赖感会使用户难以对大模型的幻觉现象保持足够警惕,从而致使大模型输出的错误信息内容更容易得到用户的接受,由此也就会导致错误信息更容易得到广泛传播而难以及时修正。

二是大模型幻觉现象的存在会导致其在垂直领域中的应用风险。例如在医学领域中应用大模型原本可以为医生的诊断提供助力,使医生迅速掌握病患的病情并作出诊疗判断。但是幻觉现象却会导致大模型输出错误的病因信息,误导医生对病情的判断,反而加重了医疗风险的发生。类似的风险还可能发生在法律领域中。大模型在法律领域内的运用能够节省法官大量的查询法条与案例的时间、精力,如英国上诉法院比尔斯大法官(Lord Justice Birss)承认其曾使用ChatGPT 整理特定领域的法律条文并用于撰写法律文书,认为它“非常好用”。哥伦比亚法院的一位法官也曾运用人工智能大模型生成案件判决书。但是,大模型幻觉现象的存在却可能会导致大模型输出错误甚至根本不存在的法条或判例。例如,美国纽约州两位律师在提交给法院的法律文书中引用了通过 ChatGPT搜集的六个案例,然而却被法院发现都是编造的。

目前开发者也可以通过应用检索增强生成技术(RAG)来减少大模型的幻觉现象。即开发者可以给大模型加上一个外挂知识库,并确保这个知识库中的信息数据的真实性。然后大模型运行时将会先行检索外挂知识库中具有真实性的信息数据,再依据检索结果进行内容的生成。该技术确实能大幅度缓解大模型的幻觉问题,但是斯坦福大学的一项最新研究表明,其依旧不能完全消除大模型的幻觉现象,由此大模型训练数据的真实性偏差风险始终存在。

由此可见,基于人工智能大模型的基本技术原理,其运用超大体量训练数据进行模型的预训练,会导致模型输出的信息内容出现价值性偏差、时效性偏差与真实性偏差等三种主要的风险,这些风险将会直接影响到大模型输出信息的质量,需要通过法律规制措施予以认真对待。


三、人工智能大模型训练数据的泄露风险及成因


人工智能大模型训练数据存在的第三种风险是数据泄露风险,它是指因大模型技术或运营模式上的特点,导致训练数据被不确定主体获取的风险。训练数据泄露风险是大模型可能引发的最严重的数据安全问题之一。我们根据数据泄露面向的对象不同,可以将其区分为面向开发者的数据泄露风险和面向攻击者的数据泄露风险两种基本类型,这两种基本类型的训练数据泄露风险产生的技术原理有所不同。

(一)面向开发者的数据泄露风险

面向开发者的数据泄露风险是指由于人工智能大模型独特的运营模式,用户在使用大模型服务时输入的数据信息会被开发者(也含大模型服务提供者,下同)所获取,而这种获取违背了用户的本意,可能会对其权益造成损害。

这种类型的数据泄露风险主要源于大模型开发者普遍采用了“机器学习即服务”( Machine Learning as a Service, MLaaS)的运营模式。MLaaS 运营模式是指由开发者为用户提供在线的大模型云计算服务,用户因此无需在本地部署运行大模型的基础设施,通过接入网络就可以在线使用大模型完成特定任务。目前流行的人工智能大模型——如谷歌公司的 Gemini、OpenAI公司的ChatGPT 、百度的文心大模型——都通过 MLaaS运营模式为用户提供服务。这种运营模式极大地降低了用户使用大模型的成本,有助于大模型应用范围的迅速拓展。

然而,MLaaS运营模式在便利用户通过云计算服务使用大模型的同时,也导致用户在使用时输入的信息数据以及与大模型应用交互时产生的信息数据都会进入开发者的云存储器中,被开发者所掌控。这意味着,如果用户输入的信息数据包含了商业秘密或者个人隐私,那么这些数据就会泄露给开发者。由于用户通常都是在本地电脑客户端上使用大模型的云服务,且大模型技术知识储备参差不齐,并不一定了解自身在用户界面输入的信息数据会被上传到云存储器中,因此存在无意间输入各类敏感信息数据的可能性。例如数据安全公司赛博天堂(Cyber Haven)的研究报告显示,自从ChatGPT问世以来,它所服务的公司客户中约4.7%的员工曾将敏感数据上传至ChatGPT至少一次,且此类敏感数据的数量达到了上传数据总量的11%。更有甚者,OpenAI公司在其制定的ChatGPT用户规则中声明,用户与大模型交互产生的数据将会被用来作为模型升级迭代的训练数据。也即,这些用户与大模型之间真实的交互数据会被ChatGPT作为大模型微调时的重要数据来源,用来提高大模型输出的信息与用户需求之间的契合度。这就意味着用户在使用ChatGPT的云计算服务时,自身输入的信息数据会被大模型在后续模型训练中使用,如果其中包含了商业秘密或个人隐私信息,也都将会被大模型深度分析。

可见,虽然MLaaS 运营模式使得大模型开发者获取了源源不断的高质量训练数据,形成了“数据飞轮”效应,能够不断提高大模型信息生成的质量,但同时却将大模型用户置于泄露敏感信息数据的风险之地。特别是当国内用户在使用诸如 ChatGPT之类的国外大模型时,一旦输入的信息数据涉及个人隐私、商业秘密甚至国家秘密,此类面向开发者的数据泄露风险所可能导致的危害后果就会尤其严重。

(二)面向攻击者的数据泄露风险

面向攻击者的数据泄露风险是指基于人工智能大模型的技术缺陷,具备一定技术能力的攻击者可以通过技术手段反向提取出应用于大模型预训练的训练数据或其他用户输入的数据。

正如前文论述中一再提及的,大模型的技术原理决定了它并不是将训练数据直接储存在自身的大模型中,而是通过对训练数据的分析,获取其中蕴含的词元间概率分布规律,然后依据这种概率分布规律推算并输出信息。因此,大模型的训练数据并不会像储存在硬盘介质中的数据那样,因为攻击者的秘密复制拷贝而泄露。但是,这却并不意味着大模型的训练数据就不会产生数据泄露风险,而只是其数据泄露的技术原理和途径有所不同而已。归纳而言,目前面向攻击者的数据泄露方式主要存在两种:

1.攻击者可以通过技术手段从大模型中反向抽取出用于预训练的原始训练数据。早在对GPT-2的研究中,就已经有研究者发现可以通过技术手段从GPT-2的模型中反向抽取出预训练时模型所使用的训练数据,包括其中涉及的个人隐私数据。也有研究对现有主流的人工智能大模型进行对比之后发现,无论是开源的大模型(如Pythia、GPT-Neo)、半开源的大模型(如LLaMA、Falcon),还是闭源的大模型(如ChatGPT),都可以通过技术手段从中抽取出原始的训练数据,并且抽取的都是以GB为计算单位的庞大体量数据。这项研究还发现,虽然使用传统的数据抽取方法较难获得ChatGPT (基于GPT-3.5-Turbo模型)中的原始训练数据,但是一旦研究者升级了数据抽取方法后,就能以相当于正常情况下150倍的速率抽取出ChatGPT中的原始训练数据。

这些研究表明,虽然大模型本身并不存储训练数据,但是通过技术手段仍然可以从大模型中抽取出原始的训练数据。这意味着如果大模型的原始训练数据中包含了个人信息数据、商业秘密数据或者涉及国家安全的数据,那么就可能会产生面向攻击者的数据泄露风险。尤其是目前开源大模型不断涌现,大模型的代码、参数甚至训练数据集本身都可能会被开源,这样就会更便利攻击者对大模型训练数据的分析与抽取,加剧面向攻击者的数据泄露风险。

2.攻击者可以通过使用特定的提示词,诱导大模型输出其他用户所输入的外部数据。这种数据泄露并非大模型原始训练数据的泄露,而是大模型用户上传数据的泄露,因此不同于前一种面向攻击者的数据泄露。由于此类数据常常会被开发者用来进行大模型的迭代升级训练,所以也可以纳入大模型训练数据的范畴。例如,在OpenAI公司发布的GPT-4 Turbo中,除了支持用户在上下文窗口中输入128K(相当于300页文本)的提示词之外,还支持用户上传外部数据,以补充大模型本身训练数据的不足。然而在互联网的技术社区中,已经有技术人员发现,通过输入特定的提示词,就可以诱导GPT-4 Turbo向自己输出其他用户输入的提示词或者上传的外部数据。这就意味着GPT-4 Turbo用户所输入的数据不但会被开发者获得,而且还会被其他具有一定技术能力的用户获得,这使GPT-4 Turbo用户输入的数据面临更高的泄露风险。

此外,还存在另一类似的数据泄露风险,即检索增强生成技术(RAG)外挂知识库中个人信息数据的泄露风险。如前所述,目前大模型开发者为了提高模型输出信息的精确度和时效性,普遍开始采用RAG技术来增强大模型的性能,为大模型增加一个可以不断升级更新数据的外挂知识库。该技术确实提高了大模型输出信息的精确度和时效性,但一项最新研究发现,攻击者可以通过一种叫做复合结构提示词的攻击方法,从采用RAG技术的大模型中诱导输出外挂知识库中的个人信息数据。该研究结果表明,随着RAG技术在大模型开发中应用面的不断拓展,外挂知识库中敏感信息数据的泄露风险也在不断累积。

由此可见,人工智能大模型在技术或运营模式上的特点决定了它在运行中会产生面向开发者的数据泄露和面向攻击者的数据泄露这两种主要的数据泄露风险,在讨论大模型训练数据风险的法律规制措施时必须将其作为重点问题进行分析。


四、人工智能大模型训练数据风险的法律规制措施


虽然人工智能大模型的训练数据存在着多种风险,但对这些风险的防范与应对不能简单地通过禁止大模型开发的方式实现。因为在数字经济时代,人工智能生成内容技术(Artificial Intelligence Generated Content)代表了新一轮内容生产方式的变革,大模型的研发已成为新科技革命的潮头,是各国科技竞争的核心领域,其发展对于我国屹立于科技强国之列具有至关重要的作用。因此,我们应选择适宜的法律规制措施,从包容审慎的基本法律规制理念出发,在兼顾人工智能大模型对数字经济社会发展促进作用的同时,尽可能降低其训练数据风险的实际发生概率,从而平衡两者之间的关系。基于前文对大模型训练数据风险类型及成因的分析,我们主要可以从以下几个方面实施相应的法律规制措施。

(一)通过调整现行立法满足开发者的训练数据需求

正如前文分析显示,大模型在使用超大规模数据集进行预训练时,会存在涉及作品类数据的著作权侵权风险与涉及个人信息数据的个人信息侵权风险。也即,大模型预训练活动可能会违反我国《著作权法》及《个人信息保护法》中设定的法律规则,在著作权或个人信息权益保护方面存在侵权风险。这种侵权风险事实上形成了开发者获取训练数据的制度性障碍,如果我们要着力发展人工智能大模型,促进我国相关技术和产业的快速进步,那么就应通过适当调整现行立法中的相关规定来满足我国大模型开发者的训练数据需求。

1.调整《著作权法》的规定,将开发者使用作品类数据进行大模型预训练的活动设定为著作权合理使用方式之一。作品类数据是人类文化艺术创作精华的集中体现,是大模型训练数据中质量最高的部分,因而也是大模型训练数据中不可或缺的重要组成部分。如果开发者获取此类训练数据的成本过高,那么就可能会阻碍人工智能大模型的发展速度,导致我国在人工智能科技和产业的大国竞争中处于劣势地位,最终将影响数字经济时代的整体国家利益。

因此,我们应通过适当调整《著作权法》的规定为大模型开发者合法使用作品类数据提供必要的制度保障。依据前述关于应对著作权侵权风险的现有理论,一种调整的方式是将“过程性复制”或“非作品性使用”的概念纳入成文法的规定,使其成为法定概念,并以此来赋予大模型预训练使用作品类数据的合法性。但是,这种方式相当于在成文法中又创设了新的不确定法律概念,对于哪些复制行为属于“过程性复制”或者哪些使用方式属于“非作品性使用”的问题将可能产生新的争议,反而导致进一步的复杂化。因此,通过调整现行立法的规定,将使用作品类数据进行大模型预训练活动明确设定为著作权的合理使用方式之一或许是更适宜的方式。这种调整既不会因引入新的概念而产生额外争议,也能够为开发者从事大模型研发减少制度上的阻碍。

不过,如果立法仅仅是单方面地允许开发者使用作品类数据进行大模型训练,对于作品的著作权人而言是不公平的。立法的调整既应当平衡开发者与著作权人之间的利益关系,同时也应当平衡二者的利益与公共利益之间的关系。因此,在将大模型预训练使用作品类数据设定为著作权合理使用方式的同时,还应当通过以下两种途径兼顾与平衡相关的利益:

其一,允许著作权人通过明确形式表达保留权利、拒绝作品用于大模型预训练的意愿。如果著作权人非常明确地表示不愿意自己的作品被用于大模型预训练,那么这种意愿就应该得到尊重。当然,这种意愿应该由著作权人以清晰且具有针对性(针对大模型预训练活动)的形式表达出来,而不能通过概括地宣称“保留作品一切权利”的形式来表达。假如著作权人采用了后一种形式,那么立法中仍然应当默认开发者有权将作品用于大模型预训练。

其二,通过征收著作权补偿金成立公益性基金会来激励和促进文化艺术创作。大模型训练数据体量巨大,甚至可以囊括互联网上所有的数字化作品。如果要求开发者对每位著作权人支付使用费,且不说确定不同作品使用费额度的工作量巨大,几乎是不可能完成的任务。即使能确定不同作品的使用费额度,海量作品的使用费相加形成的总额度也会让开发者不堪重负,甚至放弃大模型的研发。因此,较为适宜的方法是由政府监管机关对大模型开发者收取一定数量的著作权补偿金,并据此成立公益性质的基金会,专门从事激励与促进文化艺术发展的工作,从而实现社会公共利益与私人商业利益之间的平衡。

2.调整《个人信息保护法》的规定,在保护信息主体人格权的底线之上消除开发者使用个人信息数据进行大模型预训练活动的规则障碍。与作品类数据相似,个人信息数据也是大模型训练数据的重要组成部分。目前美国、英国、新加坡等国都对个人信息数据用于人工智能系统开发持积极态度。降低开发者使用个人信息数据进行大模型预训练的成本对于促进我国人工智能大模型的发展具有重要意义。调整《个人信息保护法》中相关规定的具体途径包括:

其一,通过立法设定开发者使用普通个人信息进行大模型预训练的“默示同意”规则,同时保留开发者使用敏感个人信息进行大模型预训练的“明示同意”规则。根据现行《个人信息保护法》的规定,个人信息可以区分为敏感个人信息和普通个人信息。一般而言,对敏感个人信息的处理活动更有可能影响到信息主体的隐私等人格权,而对普通个人信息的处理活动则侵害隐私等人格权的风险相对较小,因而“敏感个人信息较一般类型个人信息而言具有更高的法益”。由此,我们在立法调整中应当允许开发者依据“默示同意”规则使用普通个人信息进行大模型预训练活动,也即只要信息主体没有作出特别的例外声明,都默认其同意自身的普通个人信息被开发者用于大模型预训练活动。但是,对于更有可能涉及信息主体人格权的敏感个人信息,则仍然应当坚持“明示同意”规则,也即开发者必须征得信息主体的明确同意后才能将之用于大模型预训练活动。

根据理查德·塞勒( Richard Thaler )和卡斯·桑斯坦( Cass Sunstein )提出的“助推”( Nudge )理论,如果要鼓励人们采取某种行为,就一定要让其变得简单,而要让人们打消某种行为念头,则要设置障碍让其变得困难。上述“默示同意”规则和“明示同意”规则的立法设置将会给开发者使用不同类型个人信息制造不同制度阻力,从而引导开发者更倾向于使用制度阻力较小且侵害信息主体人格权的可能性也较小的普通个人信息进行大模型预训练,同时减少使用制度阻力较大且侵害信息主体人格权的可能性也较大的敏感个人信息进行大模型预训练。通过这样的立法调整,我们可以在降低开发者使用个人信息数据进行人工智能大模型预训练的成本、促进大模型发展的同时,守住保护信息主体人格权的底线,最大限度地降低对信息主体权益的侵害风险。

其二,将大模型开发者处理已公开个人信息的“合理范围”界定在不侵害信息主体人格权的底线之上。如前所述,在大模型时代,无论是“目的限定原则”还是“场景理论”都难以顺利界定大模型预训练时处理已公开个人信息的“合理范围”,这就使得开发者始终游走于违法处理已公开个人信息的边缘。因此,避开对“合理范围”这一不确定法律概念的正面解释,通过设定大模型预训练使用已公开个人信息的底线来界定“合理范围”或许更具操作性,这一底线就是大模型预训练不能侵害信息主体的人格权。也即,只要大模型开发者在使用已公开个人信息进行预训练时没有侵害信息主体的人格权,就应当属于在“合理范围”内使用已公开个人信息。这种划定底线的方式可以避免对“合理范围”这一不确定法律概念的复杂解释,而只需关注大模型预训练活动是否产生对信息主体人格权侵害的实际后果。于是,“合理范围”这一不确定法律概念的解释难题就可以转化为大模型预训练活动是否产生人格权侵权的法律判断问题,而后者在法学领域中的相关研究成果汗牛充栋、非常成熟,作出准确法律判断的难度会小很多。通过这样的立法调整,我们就能在尽力维护信息主体人格权的同时,最大限度地为大模型开发者使用已公开个人信息进行大模型的预训练活动提供合法性保障。






请到「今天看啥」查看全文