专栏名称: 新技术法学
究新技术法理,铸未来法基石
目录
相关文章推荐
宁聚  ·  情况通报 ·  4 小时前  
宁聚  ·  情况通报 ·  4 小时前  
信息时报  ·  涨幅超过黄金!网友:现在还适合入手吗? ·  23 小时前  
信息时报  ·  涨幅超过黄金!网友:现在还适合入手吗? ·  23 小时前  
安徽文旅  ·  春游江淮 千姿百态 | 在九华山坐直升机 ·  2 天前  
安徽文旅  ·  春游江淮 千姿百态 | 在九华山坐直升机 ·  2 天前  
51好读  ›  专栏  ›  新技术法学

赵精武:论人工智能训练数据高质量供给的制度建构 | 中法评 · 专论

新技术法学  · 公众号  ·  · 2025-02-14 11:02

正文


赵精武

北京航空航天大学法学院副教授


人工智能训练数据的高质量供给直接关系到人工智能产品或服务的功能提升。尽管学界针对训练数据供给问题试图通过著作权合理使用认定、数据安全保护义务履行等方式纾解训练数据供给的制度障碍,但未能从促进科技创新的视角论及如何实现训练数据的高质量供给的问题。人工智能训练数据高质量供给的法律内涵是市场供给的训练数据本身满足“质”和“量”的要求,同时,训练数据供给方式、供给渠道具有多元化的特征。结合促进科技创新所遵循的协同治理方式,需要从满足不同科技创新主体需求和塑造实质公平的科技创新资源配置两个方向出发,建构层次化、多元化的训练数据高质量供给保障体系。




本文首发于 《中国法律评论》2025年第1期专论二(第92-104页) ,原文19000余字,为阅读方便,脚注从略。如需引用,可参阅原文。 购刊请戳这里。


  • 北京市社科基金青年学术带头人项目“人工智能综合治理体系:安全创新与保障”(24DTR051)的阶段性成果。



目次


一、问题的提出

二、人工智能训练数据高质量供给的法律内涵:供给方式合法与供给渠道多元

(一)“高质量供给”的法律内涵
(二)训练数据高质量供给的法律内涵之一:供给方式合法
(三)训练数据高质量供给的法律内涵之二:供给渠道多元

三、训练数据高质量供给制度的正当性基础:主体要素与资源要素的保障

(一)促进科技创新的一般范式:科技创新要素的保障
(二)基于协同治理的创新主体要素保障逻辑
(三)基于协同治理的市场公平竞争保障逻辑

四、人工智能训练数据高质量供给保障机制的建构路径

(一)以科技创新主体为导向:建构人工智能训练数据公共服务平台
(二)以市场公平竞争为导向:建构公平性的训练数据供给生态保障体系
(三)高质量供给保障机制与外部数据要素配置机制的衔接路径

五、结语



问题的提出


近年来,人工智能技术的创新周期越来越短,从ChatGPT到Sora产品功能升级也不过短短两年时间。该项技术所展现出的智能化水平也使得全球各国纷纷加速推动相关产业政策的制定和落实,数字社会就此进入了“人工智能时代”。人工智能科技创新受到算法、数据、算力三个核心要素的影响,其中,高质量训练数据的供给直接关系到人工智能产品或服务的功能提升以及算法模型的优化。


为此,《生成式人工智能服务管理暂行办法》第6条第2款专门提及“推动生成式人工智能基础设施和功能训练数据资源平台建设”和“推动公共数据分级分类有序开放,扩展高质量的公共训练数据资源”。并且,《新一代人工智能发展规划》等规范性文件中也多次提及“建设面向人工智能的公共数据资源库、标准测试数据集、云服务平台”等与训练数据供给相关的产业政策。


达成训练数据高质量供给这一治理目标仍然面临诸多制度难题,如何平衡训练数据的合理使用与著作权、肖像权等权利保护诉求是国内外学者所共同关注的研究内容。


一方面,人工智能技术创新需要海量的训练数据用以支撑算法模型优化升级,一旦将训练数据的使用行为纳入著作权保护范畴,势必会显著增加科技创新的实际成本,阻碍人工智能的创新速度。并且,这种著作权优先保护模式并不能根治部分企业出于降低开发成本目的而擅自使用他人训练算法模型这一现象。


另一方面,我国《著作权法》所列举的“合理使用”并未囊括训练数据使用行为,人工智能研发者和服务提供者难以通过著作权合理使用、法定许可等事由将训练数据使用行为正当化。因此,在训练数据供给领域,国内外学者普遍将著作权保护的理论根源、合理使用“三步检验法”的法律解释等内容作为论证训练数据高质量供给的核心议题。


然而,解决训练数据使用需求与著作权保护需求之间的冲突仅是训练数据高质量供给保障的重点环节之一。因为该需求冲突的调和本质上是在数据权益归属视角下解决训练数据的供给问题,其直接效果是确认训练数据使用行为的合法性边界。实际上,训练数据供给问题除了“合法供给”之外,还包含“如何高质量供给”这另一层内容。


结合学界现有研究来看,缺乏从科技创新保障视角展开对训练数据高质量供给的研究。为了避免人工智能技术领域再度出现互联网领域“赢者通吃”的现象,确保中小科技企业能够与大型科技企业具备实质平等的科技创新条件,需要从科技创新保障的视角建构人工智能训练数据的高质量供给保障机制(见图1)。


细言之,需要明确三个方面的子问题;一是明确我国现阶段人工智能训练数据高质量供给的法律内涵与制度目标;二是明确建构高质量供给保障机制的内在逻辑;三是明确高质量供给保障机制的内部制度规范和外部体系衔接。


人工智能训练数据高质量供给的法律内涵:供给方式合法与供给渠道多元


在建构人工智能训练数据高质量供给保障机制之前,首先需要明确“高质量供给”的法律内涵。因为数据供给不单单是公共管理层面的问题,同时也涉及如何平衡数据财产权益与市场公平竞争的协调问题。并且,训练数据供给机制并不是一时性的产业政策方案,而是需要通过法律规范形成稳定持续的基础制度,故而在从产业政策到法律规范的转化过程中,需要从法学视角阐明“高质量”“数据供给”等核心概念的法律内涵。


(一)“高质量供给”的法律内涵


人工智能训练数据的高质量供给问题本身并不是一个典型的法学研究议题,更多地涉及公共行政管理等其他学科内容。因此,在建构人工智能训练数据高质量供给保障机制之前,首先需要明确的便是法学视角下“高质量供给”的基本内涵。


审视我国法学近年来的研究趋势,可以发现“促进科技创新”的相关研究越发受到关注。这是因为在数字时代,法律作用于信息技术的方式除了预防技术安全风险、明确权利义务之外,还包括从科技创新资源供给、科技创新环境保障等角度推动科技创新。部分学者也提及我国现行科技创新法律体系在横向层面涉及“科技创新资源(人财物)”等领域,并且,我国的科技治理体系正处于“集聚科技创新资源,并营造全社会创新环境”的发展阶段。


特别是在人工智能技术治理领域,人工智能规范问题可以划分为“科技市场法”—“科技风险管控法”和“科技政策法”三种类型,训练数据供给问题在本质上属于“科技市场法”范畴。立法者、监管机构并不能直接决定提供哪些训练数据、以何种方式提供训练数据,仅能在遵循市场调控科技创新资源分配的基础上,避免训练数据市场供给中垄断、不正当竞争等有悖科技创新的现象出现。故而“高质量供给”问题实质上也就转变为法律如何规范训练数据市场供给行为,并延伸出“法律如何规范训练数据供给方式”和“法律如何提升训练数据供给质量”两项内容。


“法律如何规范训练数据供给方式”所要实现的治理效果是市场以安全可靠且高效的方式提供训练数据资源。具体包括三个方面:


其一,训练数据的供给方式应当是安全可控的。 算法模型训练本身同样属于数据处理行为,故而供给方和需求方均应当遵守《个人信息保护法》《网络安全法》等法律规定的数据安全保护义务,采取合理措施预防数据泄露等安全风险。需要说明的是,这种“安全可控”不仅仅指向法律制度层面的数据安全保护义务,还指向技术层面采取诸如匿名化处理、数据“可用不可见”等技术措施确保数据安全。


其二,训练数据的供给方式应当是合法且没有争议的。 诚然,数据权益归属视角下和促进科技创新视角下的训练数据供给问题存在不同的侧重点,但这并不意味着明确训练数据使用行为的合法性边界这一问题不重要。“高质量供给”中的“高质量”内涵之一便是确保训练数据没有显著争议,否则只会增加训练数据供给活动法律效果的不确定性,从而实质性降低科技创新资源的供给效率。


其三,训练数据的供给方式应当是多元化的。 单一的数据供给方式不仅无法提供充分的训练数据,还可能因训练数据获取困难间接提升人工智能市场准入门槛。


“法律如何提升训练数据供给质量”所要实现的治理效果是市场所提供的训练数据应当满足“数量充足”和“质量充足”两个要件。一方面,当下的人工智能产业发展主要是以大模型为基础,而大模型的功能优化、性能提升需要海量的训练数据。另一方面,伴随着人工智能应用方式的场景化、专业化,其所需要的训练数据质量也有所提升。部分学者认为制约专业化人工智能实际应用的关键因素之一是数据稀缺性,特别是缺少细分领域的海量训练数据。例如,医疗辅助类人工智能需要临床试验数据、家庭病史数据等训练数据;自动驾驶类人工智能系统需要道路交通数据、驾驶员行车习惯数据、行车区域天气数据等训练数据。


相较于“数量充足”而言,对“质量充足”这一要件的满足更为迫切。在技术层面,训练数据的质量评估标准通常包括准确性、完整性、标注精确度、规模类型和时效性。准确性是指训练数据内容应当是真实可靠且准确的,因为错误数据反而会减损人工智能智能化水平,诱发算法偏见等问题;完整性是指训练数据应当尽可能实现信息要素全面且不留空白;标注精确度是指训练数据集应当尽可能被精确的方式标注;规模类型和时效性则是指训练数据类型充足且数据有效。


(二)训练数据高质量供给的法律内涵之一:供给方式合法


在“法律如何规范训练数据供给方式”方面,最突出的问题便是训练数据使用行为的合法性边界如何认定。研发者、服务提供者使用训练数据的目的是提升算法模型准确性和功能性,该使用行为本身属于纯粹的科技创新活动。但是,由于训练数据获取来源存有争议,导致训练数据使用行为的正当性也受到质疑。其中最具争议的领域便是如何解释著作权和个人信息权与人工智能训练数据使用需求之间的权益冲突问题。


其一,在著作权方面,使用他人作品用于人工智能算法训练,这种“喂养”行为究竟是否构成侵犯著作权的行为存有显著争议。 在“文生图”的应用场景下,美国画师对研发者擅自使用其作品作为训练数据的行为提起诉讼,但是美国法院始终未对这类“喂养”行为的法律性质作出正面判决。


其二,在个人信息权方面,使用个人信息作为训练数据同样存在侵权风险。 因为按照《个人信息保护法》第13条的规定,这类“喂养”行为属于需要“取得个人同意”的情形。但是,如若按照此种逻辑,研发者、服务提供者则可能面临逐一向自然人获取同意的情况,这无疑给科技创新活动增加了庞大的合规成本。


此外,《个人信息保护法》第13条还规定了“在合理范围内处理个人自行公开或者其他已经合法公开的个人信息”属于无须征得自然人同意的情形,但是数据“喂养”行为究竟是否属于该“合理范围”尚未明确。


在著作权保护方面,《生成式人工智能服务管理暂行办法》回避了训练数据使用行为合法边界的认定问题,仅在第7条规定义务主体应当“使用具有合法来源的数据和基础模型”和“不得侵害他人依法享有的知识产权”。当然,其中的原因也包括该办法的效力层级决定了其无法规定与《著作权法》相抵触的内容。


除此之外,过早界定训练数据使用行为合法性边界反而有可能导致科技创新受限,相应的立法逻辑则是将此类问题进行“个案化处理”。因为在实践中,部分研发者、服务提供者获取训练数据的方式就存在违法性,即擅自抓取作品数据进行算法模型训练,进而导致训练数据使用行为本身缺乏正当性基础。在学理层面,主流观点还是倾向于通过法律解释的方式允许研发者、服务提供者使用他人作品进行算法模型训练,前提是该类训练数据的使用行为不会构成对著作权的损害,例如自动生成侵权性信息内容、非法抓取他人作品数据等。


这些法律解释方式大体包括三类: 一是注意义务论 ,即在允许使用他人作品作为训练数据的同时,对研发者、服务提供者设置必要的注意义务以保障著作权。 二是技术环节论 ,即将训练数据使用行为与作品使用行为予以区分,认定数据训练中的作品使用属于“生产过程性的中间使用”,亦即“非作品使用行为”。 三是复合权益建构论 ,即在承认训练数据承载多项权益的基础上主张建构训练数据财产权,进而厘清该数据财产权与著作权的协调保护问题。但遗憾的是,该类学说由于未能阐明各类权益的内部关系,使得最终的权利平衡论证仅停留于笼统的价值评估环节。


这种著作权侵权争议问题的解决实际上是多维度的,除了需要回归到著作权法领域解释训练数据使用是否属于“合理使用”之外,还需要在供给保障机制层面规范训练数据的获取方式和获取路径。在著作权法领域,训练数据使用行为的争议根源在于:使用他人作品作为训练数据是否减损了权利人基于著作权所能获得的实际收益;而在供给保障机制领域,因为实践中部分训练数据的获取是批量性抓取他人作品数据,相应的争议根源则表现为训练数据的获取方式是否违背了权利人意愿。


所以,数据供给双方的法定义务以及供给方式的合法性将成为建构人工智能训练数据高质量供给保障机制的重要内容。《数据安全法》第13条、《生成式人工智能服务管理暂行办法》第7条均对数据来源合法目标的实现提出设置专门的义务性条款。至于个人信息侵权争议问题的解决,则可以通过建构训练数据匿名化处理机制等方式规避一些潜在的可识别风险。


在个人信息保护法方面,“供给方式合法”问题实质上转变为《个人信息保护法》适用问题。可以明确的是,未经公开的个人信息无法直接用于算法模型训练,其前提是应当征得“自然人同意”。


不过,《个人信息保护法》第13条规定了“无需自然人同意”的情形,其中最常见的情形便是“订立、履行个人作为一方当事人的合同所必需”“在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”。前者主要涉及人工智能算法模型训练,目的是更好地服务于信息服务使用者,将其个人信息用作训练数据“确属合同之必要”,但涉及的个人信息仅限于权利人个体层面;后者则是现阶段人工智能产业发展亟须明确的法定情形,将批量的已公开个人信息用作训练数据究竟是否属于“合理的范围”存有争议。


从兼顾科技创新和个人信息保护的角度考量,倘若自然人自行公开个人信息时未作“禁止性”声明,或者根据公开个人信息类型、公开场合、公开时间等因素无法推断出自然人存在明显拒绝“算法模型训练”之意图时,则应当允许将个人信息用于算法模型训练,但不能用于其他场合。如果一概将“算法模型训练”排除在《个人信息保护法》第13条第6项的“合理的范围”之外,无疑会实质性限缩能够用于算法模型训练的数据范围和类型。


此外,“供给方式合法”问题还涉及另一个合同法层面问题,即数据供给方所提供的训练数据涉及违反合同约定或者违反法律强制性规定,是否会对算法模型训练行为的合法性产生影响。《数据安全法》第33条规定数据交易中介服务机构应当要求数据提供方说明数据来源,审核交易双方身份,以此确保数据来源的合法性。同时,《个人信息保护法》第20、21、59条等规定对于委托、共同处理等类型的个人信息供给方式,均明确规定了相应个人信息处理者的法定义务。


因此,对于数据接收方而言,其注意义务主要表现为是否在合同中明确规定数据接收方应当确保数据来源合法、是否存在刻意忽视个人信息来源不合法等条款内容,且采取了必要的技术保护措施。一旦数据接收方确实履行了这些义务之后,其合理的训练数据使用行为不应当因数据供给方的违约行为而失去合法性基础。《个人信息保护法》第21条第2款也提及委托合同无效、被撤销或终止的,受托人也仅仅负有返还或删除个人信息的义务,并没有就此认定其已经实施的加工处理行为违法。


(三)训练数据高质量供给的法律内涵之二:供给渠道多元


在“法律如何提升训练数据供给质量”方面,核心问题则是如何尽可能扩大训练数据的供给范围和增加供给方式的数量。而这一问题与公共数据开放也存在一定的关联性,因为现有的训练数据大多是以个体财产性质的训练数据产品为主,但是能够用于交易的训练数据产品无论是数量还是质量均难以满足人工智能产业的长远发展需求。


特别是在推动数据要素市场化配置的政策背景下,主流观点认为数据经济价值并未被充分挖掘,公共部门因其职权所持有的数据资源具有广阔的应用场景,这也是国家推动公共数据开放运营机制的原因所在。然而,尽管地方政府纷纷出台相关政策文件推动公共数据开放,但是从实践情况来看,建构面向人工智能企业的公共数据资源平台仍然与预期目标存在一定差距。


作为国内第一个人工智能数据训练基地的北京亦庄人工智能公共算力平台将组织数据供给方、加工服务方、模型训练方“进场”合作,核心目标聚焦在公共算力供给,而非公共数据供给。在国外,人工智能训练数据的来源较为多样化。在美国,人工智能训练数据提供商提供的数据类型包括文本数据、深度学习数据、已标注的图像数据、合成数据、音频数据、大模型数据以及计算机视觉数据等,市场价格也会根据数据数量、时间范围、属性等要素波动。同时,美国开源组织通过整合政府开放的公共数据和网络公开数据,进一步形成以开源为主的高质量训练数据语料。例如,开源组织EleutherAI开发的英文语料库——ThePile包含了来自美国专利商标局、美国国家生物技术信息中心等政府机构开放的公共数据。


现阶段,大部分业已积累足够竞争优势的超大型互联网平台缺乏供给其数据资源的意愿,相对应地,市面上已有的数据资源已经愈发难以满足中小企业研发人工智能产品的技术需求。为了避免超大型互联网平台以其自身的数据竞争优势间接限制人工智能市场准入难度和正常市场竞争秩序,有必要扩宽训练数据的供给渠道,从单纯的企业数据供给转变为企业数据交易、公共数据开放、合理的数据抓取等多元化的训练数据供给渠道。


不过,公共数据开放与公共数据供给在制度目标和实现方式上存在一定差别。学界论及公共数据开放问题时,主要围绕公共数据开放安全、公共数据授权运营方式以及公共数据经济收益分配三个方面展开论述。对于公共数据供给问题,看似“供给”和“开放”的最终目的均是公共数据的公开使用,但在实现方式上,面向人工智能产业的公共数据供给更加侧重以科技创新资源的定位对外提供,并且这种供给方式在数据权益归属方面的争议较少。


在学理层面,公共数据作为训练数据对外提供的方式主要包括两类:一类是通过建构公共数据训练平台,通过数据“可用不可见”等方式将算法模型上传至平台进行训练后,再将训练结果传递给研发者、服务提供者;另一类则是经由事前的匿名化处理等技术措施,结合市场科技创新需求,将数据进行标注后,以开源的形式将训练数据集对外公开。


也有学者主张通过健全公共数据开放制度解决人工智能训练数据来源的合法性问题,提出公私合作机制和公共数据授权运营机制两类公共数据开放方式。部分学者也将公共数据开放目的总结为“最大限度利用信息技术释放数据潜能”和“提升政府的现代化治理能力”。但问题在于,这种公共数据开放制度的探讨实质上脱离了训练数据供给不足这一研究语境,是在宽泛意义上讨论如何实现公共数据最大程度的开放利用。


更确切地说,人工智能训练数据高质量供给保障机制的理论起点并不是数据开放利用问题,而是通过拓展训练数据来源渠道,实质性增加科技创新主体创新资源获取的可选择范畴,实现市场竞争的公平性。客观而言,作品数据能否作为训练数据的法律争议何时能够得到正面回应难以预料,再加上数据抓取行为受到严格限制,并有可能被认定为不正当竞争行为,这使得仅仅依靠作品数据这类数据资源推动人工智能科技创新的方式难起成效。


并且,随着人工智能技术的持续创新,对训练数据的质量要求“只增不降”,而低质量语言数据将在2030年至2050年耗尽,高质量语言数据则将在2026年耗尽。所以,尽可能增加训练数据供给渠道,保障各类企业的科技创新资源获取权,使之能够在多元化的训练数据供给渠道之间进行充分选择,理应属于训练数据高质量供给机制的立法目标之一。


训练数据高质量供给制度的正当性基础:主体要素与资源要素的保障


在明确了人工智能训练数据高质量供给的法律内涵与核心问题之后,还需解决的另一个问题便是,如何按照治理逻辑和治理理论建构“高质量供给”的体系架构和具体规则。结合立法目的来看,其正当性基础的证成应当围绕法律制度如何促进科技创新予以展开。


(一)促进科技创新的一般范式:科技创新要素的保障


科技法理论研究大多是从促进科技创新转化、保护科技创新知识产权、保障科技人才合法权益和财政支持保障制度等视角建构科技创新促进机制,其理论基础均是以影响科技创新的关键因素为起点,强调政府和市场在促进科技创新过程中协同作用。故而也有学者认为“市场取代政府成为科技创新运行机制中的主导力量”,致使近年来的科技立法和理论研究重心转向了科技成果的产权化、权利归属及转化问题。总结科技法层面促进科技创新的制度路径,其治理模式大体包括安全风险预防、市场激励创新和创新资源保障。


现有研究对于前两类治理模式关注度较高,而对于创新资源保障则主要停留于科技创新专项财政支持、基础设施建设等层面,缺乏相应的理论范式支撑具体制度内容的展开。例如,在刑法领域,科技创新所产生的诸如非法植入基因编辑等新型风险需要通过扩容旧罪、增设新罪等方式进行“安全风险预防”。在行政法领域,“命令—控制”型传统治理机制具有滞后性,应当通过“组织结构机制创新”“信息披露机制创新”和“沟通商谈机制创新”解决科技高速创新所产生的各类安全风险。再如,面向芯片国产化创新需求,部分学者主张通过加强创新环境建设、明确财政支持标准等机制发挥市场激励科技创新的功能。


前述研究趋势和观点虽存有争议,但在科技创新治理体系层面,部分学者更倾向于用协同治理理论解释治理体系的正当性基础。协同治理理论是“自然科学中协同论和社会科学中治理理论的有机结合”,主要强调多元主体在复杂社会公共事务处理中的协同作用。部分学者也将该理论的内容总结为“多主体参与、各子系统之间的协同性以及过程管理的协同效应”。该理论之所以在科技创新中得到关注,是因为科技创新治理活动本身属于一项复杂性社会事务,纯粹依靠政府的行政监管、产业政策难以实质性推动科技创新,而该理论则可以通过治理主体的扩张、治理机制的多元化以及治理能力的协同性回应科技创新治理的复杂性。


在治理主体层面,常见以“政府—市场—企业—社会—公众”等的主体框架论证如何从传统的科层制单向治理模式转向多元利益主体的多维度治理模式。这种治理主体架构有效契合了科技创新系统,政府、市场、企业、社会等治理主体对应了影响科技创新进程的不同要素。部分学者也就此提出科技创新系统多主体协同治理能力体系,认为多元主体能够在协同的创新环境下建立共同战略导向,了解并完成创新资源共享。并且,在部分学者看来,德国科技创新治理体系囊括了“大学、企业和科研机构”“科学联席会议、德国研究与创新委员会等社会平台组织”等多元主体,属于典型的治理主体协同机制。


学界在阐释协同治理理论时,大多停留于一般意义上的“多元主体共治”层面,未能阐明多元主体之间如何达成协同治理效果。特别是在数字法学领域,笼统泛化的理论模型无助于推导和证成权利义务的内容。更为关键的是,“协同治理理论”似乎解决的是“如何建构”问题,而不是“为什么应当建构”问题。


因此,需要澄清的是,该理论在法学领域的核心作用在于提供一种整体性治理的观察视角,“多元主体共治”仅仅只是外在表现形式之一,更为实质的内容在于,通过政府机构、非政府组织、个人等主体的共同参与,有效促成各项治理要素达成“协同”效果,进而建构起能够连接各项治理要素的法律规范。


并且,“多元主体共治”的一个前置性条件便是:风险要素的多元化、社会系统的复杂性等原因使得单一主体治理、自上而下治理等传统治理模式无法有效解决现代社会治理问题。换言之,之所以要建构训练数据高质量供给保障机制,是因为行政监管干预、市场自行探索等任何一种治理机制均无法在短期内满足促进人工智能科技创新、算法模型训练等治理需求,“多元化主体供给”也暗含了“多维度治理”之义,进而达成供给渠道多元化、多元供给方式合法的治理效果。


在科技创新领域,所谓的“协同”表现为治理机制能够遵循相同的治理目标和治理逻辑,不同治理机制之间能够达成治理功能的互补和治理效果的补强。并且,已有学者注意到,现有研究缺乏有意识关注协同治理模式需要数据要素高质量供给系统规制机制之间互补和嵌合的问题。具体到训练数据供给领域,多元主体治理的协同性主要表现为按照数据资源生产逻辑、科技创新产业链等实践基础建构条块化的专项治理体系。


结合产业现状来看,影响训练数据高质量供给的要素主要包括创新主体需求要素和市场竞争要素两类。前者主要指向不同科技创新主体对于训练数据的数量、质量存在不同的需求,意味着供给保障机制需要明确拓展训练数据的供给类型和供给范围;后者则主要指向训练数据供给方式需要符合市场竞争秩序,因为法律不可能代替市场调节机制完成训练数据供给,其核心的干预逻辑还是以维持训练数据的公平获取性为主。在实践中,这两类科技创新治理要素存在“脱节”问题,即不仅不同科技创新主体各自的差异化科技创新资源需求难以得到满足,并且,基于自身科技创新资源获取能力的差异性,还存在影响市场公平竞争的难题。


(二)基于协同治理的创新主体要素保障逻辑


训练数据供给保障机制的建构目标是满足人工智能科技创新需求,并且这种创新需求的满足方式不能局限于训练数据的单一供给,还涉及考量不同类型创新主体的差异化需求。纵览我国互联网市场发展历史,科技企业逐渐呈现“强者愈强”的发展趋势,这也导致中小企业进入相关互联网市场的行业门槛越来越高。近年来学者们所关注的“守门人”理论、数据互联互通等研究议题在一定程度上也是为了确保中小企业具备足够的科技创新环境。相较于大型科技企业而言,中小企业在科研能力、资金运转、业务合规等方面均存在不同程度的差异性,这也决定了训练数据供给保障机制的建构需要重点考量创新主体因规模差异性而延伸出的不同科技创新需求。


具体而言,大型企业以及既存的互联网企业因其前期业务积累而获得的数据资源能够满足早期人工智能研发需求;而中小企业在涉及大模型训练时,既难以承担高质量训练数据所需要花费的研发成本,也面临训练数据使用行为合法性问题的困扰,故而也有学者断言著作权问题是中小企业特别关切的问题。倘若在立法过程中过度关注科技创新的实际产出效率,忽视中小企业发展需求,容易产生“马太效应”。


这种区分大型企业与中小企业的科技创新治理逻辑是以建构更加均衡的科技创新生态系统为基础的。即便在一般治理领域,大型企业与中小企业的区分治理也已成为共识,并且,在近期发布的《关于大型企业与中小企业约定以第三方支付款项为付款前提条款效力问题的批复》中,最高法也明确了大型企业与中小企业在合同缔结能力等方面的差异性,强调对中小企业的司法救济。此外,《中小企业促进法》第2条明确了中小企业的基本概念和认定标准,即按照企业从业人员、营业收入、资产总额等指标,并结合行业特点进行认定。此外,该法第五章“创新支持”更是从财政支持、科研项目支持、知识产权保护等方面鼓励中小企业科技创新,其中第33条也提及国家支持中小企业采用人工智能等现代技术手段创新生产范式。


当然,该规定并未过多提及科技创新资源的保障机制内容,原因也在于该法并非面向科技创新领域。《科学技术进步法》则将科技创新资源供给和中小企业资源分配支持纳入其中:在科技创新资源供给保障方面,第4条提及“充分发挥市场配置创新资源的决定性作用,更好发挥政府作用,优化科技资源配置”,第17条规定的科学技术进步工作协调机制便是以“协同科学技术资源配置”作为实施目的之一;在中小企业资源分配支持方面,除了第43条和第89条规定的税收优惠、基金资助外,第44条还提及公共研发平台应当为中小企业的技术创新提供服务。由此可见,现行立法体系已经明确了科技创新资源的差异化配置逻辑,只不过在人工智能领域尚缺乏专门性的供给保障机制。


(三)基于协同治理的市场公平竞争保障逻辑


建构训练数据高质量供给保障机制不等于国家或政府将代替市场完成训练数据资源的调节和分配目标,其建构目的是弥补市场调节机制失灵和缩短市场成熟周期。故而有观点认为影响科技资源共享的主要因素包括市场因素和政府、政策因素,科技作为“准公共产品”,需要由公共财政予以支持,私人或组织供给存在“市场失灵”难题。事实上,考量中小企业对于训练数据的差异化需求实质上也是为了确保实质公平的科技创新秩序。


在立法层面,既不可能规定由政府取代市场直接供给训练数据,也不可能强行要求面向大中小企业采用完全一致的训练数据供给标准,这只会损害市场调节功能。更确切地说,建构训练数据高质量供给保障机制的另一个目的是保障中小企业科技创新资源公平获取权。法律促进科技创新的法理逻辑从来都不是以强制性规范直接干涉科技创新的某一个具体环节,而是通过设定禁止性规范、平衡权利义务等方式规范科技创新活动的有序性和公平性。


训练数据高质量供给保障机制的功能定位归根结底属于保障性规范,确保各类科技创新主体在不受到外部干扰的情况下能够实质公平地获取科技创新资源。这种实质公平通常包括两层含义:一是科技创新资源获取机会的均等性,即各类科技创新主体均能够以符合自身规模特点的方式获取科技创新资源;二是科技创新资源获取条件的一致性,即各类科技创新主体均能够按照相同标准获取科技创新资源,而不存在附加性的获取条件。


从市场公平竞争的视角考察,训练数据供给方式的单一性会使得大型科技企业基于自身的数据资源优势,在科技创新产业层面实现对训练数据供给方式的间接控制,进而主导整个人工智能产业的发展方向。更为棘手的是,一旦数据财产权以类似所有权等其他形式的权益属性得到立法确认,那么意味着大型科技企业有正当理由自由影响训练数据市场供给活动。


因此,在提及训练数据财产权益建构时,也有学者认为“微型确权或强化企业的数据排他性确权”会形成更严重的数据不公,因为中小企业难以获取训练数据,大型科技企业却可以利用自身的业务生态系统获得海量训练数据。并且,部分学者认为“现有的科技创新政策特别注重保护大企业利益,客观上限制了民营中小企业的发展”。所以,训练数据高质量供给保障机制除了需要保障训练数据供给数量和质量之外,还需要保障训练数据获取条件的公平性。


随着人工智能产业的持续发展和技术的普及应用,将会形成更为复杂的科技创新产业链。例如,在算力供给领域,则会出现算力服务提供商、算力整合调度运营商等新兴主体;类似地,在训练数据供给领域,基于大中小企业差异化的科技创新需求而形成的层次化供给方式也意味着多元化的供给主体,进而延伸出数据经纪商、训练数据提供商等新兴市场主体。此时,训练数据高质量供给保障机制则需要从维护市场公平竞争的角度权衡各方的权利义务,预防超出《反垄断法》《反不正当竞争法》调整范围的非公平竞争行为。


这种市场公平竞争倾向实际上将“为什么要建构训练数据高质量供给制度”这一问题转变为“是什么原因导致训练数据无法高质量供给”。在实践中,大中小企业在数据获取能力、数据资源积累、技术创新能力、经济能力等方面存在巨大差异,倘若不在市场公平竞争层面解决训练数据供给不足的现实问题,只会导致人工智能科技创新成本愈发增多。因此,中小企业有限的市场竞争能力决定了需要保障市场公平竞争的训练数据高质量供给制度提供支撑。


在协同治理框架下,训练数据高质量供给的法律内涵则表现为训练数据供给方式的实质公平性。虽然现行的《反垄断法》《反不正当竞争法》在数次修订后均有设置“数据专条”,但这些条款内容大多还是以构成法定的垄断行为和不正当竞争行为作为前提条件。训练数据的不公平供给在很大程度上难以归入至这些行为类型范畴,其主要的表现形式是间接控制社会整体训练数据供给总量、训练数据市场价格等。


为了预防和控制这类潜在的非公平性供给现象出现,可以推导出两个层面的协同治理范式:一是训练数据获取方式的多元化选择,即保障各类科技创新主体具备同时选择多个训练数据获取渠道的可能性;二是训练数据获取条件的公平性标准,即保障科技创新主体不会以明显超出自身能力范围的方式获取训练数据资源。


人工智能训练数据高质量供给保障机制的建构路径


人工智能训练数据高质量供给保障机制的建构重心需要兼顾科技创新主体的差异化需求以及训练数据获取方式的实质公平性。结合“法律如何规范训练数据供给方式”和“法律如何提升训练数据供给质量”所确立的高质量供给目标,相应的机制建构路径包括层次化的供给保障机制和公平性的供给保障机制两方面内容,同时还应当确保该供给保障机制与现行立法体系能够有效整合衔接。


需要说明的是,虽然《中共中央、国务院关于建构数据基础制度更好发挥数据要素作用的意见》(简称)等规范性文件提及了诸如“数据持有权、数据加工使用权、数据经营权”等类似的数据财产权架构,但是这些数据财产制度的建构需要以充分的数据交易实践为依托,短期内难以建构完备且成熟的数据交易机制。


因此,在这一客观背景下,更需要以训练数据高质量供给保障机制弥补数据财产制度空缺的“过渡衔接”功能;并且,该保障机制的建构与实施也能够足以推动形成支撑数据财产制度的实践基础。在数据财产权制度趋于成熟后,该保障机制的核心立法目标将被数据财产权制度、数字市场公平竞争机制以及公共数据开放制度所承接,清晰明确的数据财产权将更有助于解决训练数据供给过程中可能存在的法律纠纷。


(一)以科技创新主体为导向:建构人工智能训练数据公共服务平台


现阶段,训练数据的供给方式较为单一,且存在训练数据使用行为侵犯著作权等侵权风险争议。从促进科技创新的角度考量,更需要建构层次化的供给保障机制,在满足大中小企业不同训练数据需求的同时,允许以其他形式进行市场化的训练数据高质量供给。首先,需要通过配套制度建构促成公共数据向公共训练数据集合的转变。在公共数据开放面临数据安全、个人信息保护以及收益归属争议的当下,更应当探索多元化的公共数据开放使用方式。


训练数据的使用目的是优化人工智能算法模型,在能够采取预防数据泄露措施的前提下,这类开放使用模式所面临的侵权风险更低。《科学技术进步法》第87条也规定财政性科学技术资金应当主要用于“科学技术基础条件与设施建设”等事项,第44条也明确规定国家支持建设和运营的功能研究开发平台、科学技术中介、创新创业服务机构应当为中小企业的技术创新提供服务。因此,除了主流研究所主张的特许授权经营等模式之外,还可以考虑建构人工智能训练数据公共服务平台,面向大中小企业的科技创新需求,提供高质量的训练数据集合。具体而言,人工智能训练数据公共服务平台的运营机制主要包括以下四项内容。


第一,需求发现和确认机制。 该公共服务平台的法律性质与算力网络、算力中心相类似,共同组成人工智能科技创新的数字基础设施。科技创新资源供给的起点应当是明确训练数据需求,高质量供给的表现形式之一便是提供企业所迫切需要的高质量训练数据。因为高质量训练数据的判断标准并不是固定的,不同规模的算法模型训练参数并不相同,训练数据与算法模型的匹配性才是衡量质量高低的重要依据。因此,人工智能训练数据公共服务平台的职能之一便是发现和确认各类科技创新主体的训练数据需求,明确公共训练数据集合的类型划分。


第二,公私合作型的公共数据处理机制。 从公共数据到公共训练数据还需要经历必要的数据加工处理环节,直接访问和使用公共数据的安全风险难以控制,故而需要通过数据清洗等方式推动公共数据转变为公共训练数据集合。但是,政府部门难以持续性地对公共数据进行数据清洗、归集等措施,在协同治理模式下,应当经由公私合作的形式,按照市场需求对公共数据采取去重、纠错、填补空值等方式,提升公共训练数据的使用质量。


此外,由于训练数据的质量直接关系到算法模型功能,公共数据处理机制还应当包括数据纠正核验机制,明确公共训练数据的准确性程度。人工智能大模型本质上是一种概率模型,不准确、不完整、过时的训练数据反而容易使得人工智能生成错误内容,数据纠正核验机制则是为了对公共训练数据的质量水平予以明确,避免因训练数据的不当使用而产生法律纠纷。


第三,数字基础设施一体化建设机制。 人工智能训练数据公共服务平台与算力基础设施均属于向市场提供必要科技创新资源的基础设施,数据和算力共同作用并影响人工智能科技创新效率。为了避免基础设施的冗余建设,更适宜将两种数字基础设施一体化建设,算力基础设施提升数据处理效率,训练数据基础设施提供算法模型训练的基础创新资源。


第四,多层次训练数据供给机制。 公共数据向公共训练数据的转变应当是多样化的,即以需求发现和确认机制为基础,允许公共训练数据以数据资源池或定制化产品等方式对外提供。在训练数据资源匮乏且获取方式困难的当下,拓展训练数据来源方式尤为重要。在技术层面,为了在高效、廉价且不侵权的情况下获取海量训练数据,“合成数据”这一概念被提出,即“通过算法人为生成出符合真实世界情况的数据集”。这种合成数据在一定程度上也能缓解现有训练数据资源匮乏问题,同时也能够丰富公共训练数据的供给类型。


(二)以市场公平竞争为导向:建构公平性的训练数据供给生态保障体系


人工智能训练数据高质量供给保障机制的目的之一是形成持续性的训练数据供给生态。我国现阶段的人工智能训练数据所面临的实践困境不仅仅是训练数据的数量不足、质量要求较低,还包括有效的训练数据产业生态尚未形成。不过,这种产业生态体系的形成和建设已经超出了法律调整功能的基本范畴。法律对于科技创新产业链的作用方式主要还是围绕业务行为的合法性、市场竞争秩序的保障等议题;在训练数据供给环节,这种作用机制则表现为对训练数据提供商和数据标注服务提供商的义务性约束。因为这两类新兴市场主体是与训练数据供给业务共同形成的,并处于训练数据供给的关键环节。


为了避免训练数据供给“数据垄断”等影响科技创新的现象出现,同时确保中小企业具备实质公平地训练数据获取的能力,有必要对这两类新兴市场主体设置相应的义务规范。欧盟近年来发布的网络安全战略、数据法案和数据治理法案等均是为了人工智能系统研发提供高质量训练数据,并且,欧盟还将数据开放的广度和深度作为人工智能科技创新的重要影响因素。只有在数据可用且易于访问的情况下,才能推动人工智能技术的实践应用,而能够影响到数据可用且易于访问的市场主体便是训练数据提供商和数据标注服务提供商。


上述两类市场主体对于训练数据高质量供给的影响方式主要表现为训练数据的可获取难易程度和训练数据的实际质量水平。在可获取难易程度方面,训练数据提供商应当具备多元化特征,训练数据提供商的数量受限、完全私营化等问题容易导致训练数据供给渠道的单一性,并在“强者愈强”“赢者通吃”的互联网产业发展格局之下,诱发与训练数据供给相关的不正当竞争行为。更值得关注的是,国内外立法均对数据抓取行为采取了不同的限制措施,未经许可的数据抓取行为通常会被法院认定为不正当竞争行为。


实践中,用于训练数据人工智能模型的重要训练数据大多来自网络已公开数据,这也意味着实际可获取的训练数据的数量和范围受到严格限制。在此种情况下,更需要对训练数据提供商的经营行为进行必要约束,预防训练数据供给市场再度出现异化的不正当竞争行为。在训练数据质量层面,训练数据的完整性、相关性、统一性和可信度直接关系到人工智能模型训练效果,因此,训练数据提供商与数据标注服务提供商有义务确保所提供的训练数据或训练数据标记活动能够满足数据质量的基本要求。


欧盟基于已有研究成果,认为数据质量的六个维度(一致性、完整性、特征准确性、目标准确性、唯一性、类别平衡性)与人工智能算法性能的关联性有所区别。其中,完整性(无缺失数据)和特征准确性(无错误数据)对分类、回归和聚类三类算法性能影响最为显著。并且,欧盟还以德国资助的国家科研数据基础设施为例,其中的NFDI4Chem联盟通过制定最佳实践方式,确保化学数据可查找、可访问、可互操作和可重复使用,配合数据质量审查流程、内部管理办法,用以确保数据质量和可信度。


因此,面向训练数据提供商和数据标注服务提供商所增设的义务性规范应当以训练数据获取条件和获取质量为核心内容。对于训练数据提供商而言,出于市场公平竞争的考量,应当严格禁止训练数据提供商采取强制或变相强制的方式出售捆绑性的训练数据产品。同时,训练数据提供商不得采取类似电商平台竞争的“二选一”等业务模式,对需求方施加不合理的训练数据获取条件。


在判断是否存在不合理的业务模式和数据获取条件时,应当优先判断需求方获取训练数据的方式和可选择的训练数据产品类型是否受到实质性限制。对于数据标注服务提供商而言,尽管《生成式人工智能服务管理暂行办法》第8条规定了数据标注质量评估、数据标注培训等法定义务,但这些义务的设置目标主要还是以预防算法歧视等风险为主。在训练数据高质量供给领域,增设的数据标注服务提供商的法定义务则侧重训练数据供给质量,即数据标注服务提供商应当确保所提供的标注型训练数据满足数据完整性、时效性、特征准确性等质量要求,并且训练数据的实际质量应当与其事前约定的数据质量保持一致。


(三)高质量供给保障机制与外部数据要素配置机制的衔接路径


训练数据高质量供给保障机制属于数据要素市场化配置的具体制度内容,该供给保障机制除了需要明确如何规范训练数据供给方式、提升训练数据供给质量等内在保障制度外,还需要明确自身与其他外部制度的协同性。训练数据的收集和使用往往涉及不同主体的数据财产权益,只有权属明晰、安全可靠的训练数据才能够最大化降低潜在的法律纠纷,高效推动人工智能科技创新。结合训练数据使用行为的常见争议,该供给保障机制的体系衔接主要涉及数据安全保护制度和数据交易制度两个方面。


在数据安全保护制度领域,由于训练数据在某些情况下可能包含个人信息、重要数据,故而部分学者也认为训练数据使用行为可能涉及个人信息非法收集、泄露,甚至国家秘密泄露等风险。然而,这种风险论断实际上混淆了数据来源非法性和数据处理行为非法性之间的差异。所谓的训练数据使用行为侵犯个人信息权在很大程度下是因为训练数据收集行为不合法,如未经许可擅自收集用户个人信息等,而训练数据高质量供给保障机制的前提条件之一便是训练数据来源的合法性。所以,认为训练数据使用行为可能侵犯个人信息权的论断是将非法收集行为的法律效果一并纳入训练数据使用行为。


此外,诸如个人信息泄露、重要数据泄露等安全风险实际上来自数据处理者自身,而不是训练数据使用行为所直接导致的。在任何数据处理活动中,均可能存在数据泄露、毁损等安全风险,故而《个人信息保护法》《数据安全法》等法律法规也规定了一系列数据安全保障义务以预防此类风险事件的发生。


在法理逻辑层面,与其说训练数据使用行为存在数据泄露等安全风险,倒不如说数据处理者未能履行数据安全保障义务导致数据泄漏风险更为恰当。这些数据安全风险对数据处理者的法定义务提出更为严格的履行标准。正因为训练数据包含个人信息或者经由二次分析挖掘可能还原原始个人信息、重要数据,所以数据处理者需要尽可能采取必要的安全技术和管理措施预防风险事件发生。总结而言,人工智能训练数据高质量供给保障机制与数据安全保障制度的衔接方式是明确训练数据来源的合法性,只有来源合法的数据才能够同时确保使用行为的正当性以及数据质量的可靠性。


在数据交易制度层面,训练数据高质量供给保障机制也属于数据交易制度的形式之一。现有的数据财产权学理论证通常将数据权属明晰作为数据交易的前置条件,这也是为了与数据资产入表所对应的会计准则相适配。法律促进科技创新的方式始终是“市场调节为主,政府干预为辅”,训练数据作为数据产品,其交易活动同样受到数据交易制度的调整。


人工智能训练数据高质量供给保障机制的建构前提是认可训练数据财产权益的存在,即在制度层面承认训练数据提供商可以通过训练数据产品的交易获取相应的经济收益。在实践中,贵阳大数据交易所也发布了数百个人工智能高质量训练数据集,囊括了预训练、指令微调和测试验证三个模型训练环节。因此,人工智能训练数据高质量供给保障机制与数据交易制度的衔接方式是将数据交易场所与训练数据供给相结合,建构市场化的高质量训练数据交易机制。


结语


人工智能科技创新离不开高质量的训练数据训练和优化算法模型,但是现有的制度体系尚未形成体系化的训练数据高质量供给保障体系。建构人工智能公共训练平台、人工智能算力供给平台等数字基础设施仅仅是提升训练数据供给效果的环节之一,更重要的是面向不同的科技创新主体需求,建构多渠道、精细化的训练数据供给保障机制。大型企业与中小企业在获取训练数据的能力层面就存在天然的差距,倘若仅交由市场资源分配机制完成训练数据的供给,只会提升中小企业进入人工智能领域的行业门槛,这有悖于我国促进多元主体科技创新的治理目标。因此,需要在协同治理理念的指引下,以支持性、鼓励性条款推动训练数据提供商、中介服务商等新兴市场主体参与到训练数据高质量供给活动中,形成面向不同人工智能训练需求的训练数据高质量供给保障机制。


按语



近年来,人工智能技术正在持续取得重大突破:Resnet解决了梯度退化和消失问题,使深度神经网络的训练效果大为增强;GAN算法的成熟带动了深度合成技术的全面成型;Transformer架构基于并行注意力机制堆叠出庞大架构,为BERT等大模型的出现奠定基础;Decoder-only的路线孕育了GPT系列大模型,生成式人工智能由此笙歌鼎沸;RAG技术使大模型与特定知识密切结合,催生了日益强大的领域模型;MoE架构和MTP方法等新技术的加入使大模型开始突破“规模竞赛”的壁垒,转向“内涵式发展”。向量数据库、测评基准、开源框架等的高速演化,更使得整个人工智能生态欣欣向荣,而不可估量的蓬勃生机与不可胜数的不确定性风险将持续共存共生。


在人工智能迅猛发展的背景下,人工智能法治已成为全球范围内万众瞩目的议题。欧盟《人工智能法》的制定和美国多州人工智能立法实践广受关注,国内人工智能立法进程也在稳步推进。2024年5月,国务院办公厅印发《国务院2024年度立法工作计划》,将“人工智能法草案”列入预备提请全国人大常委会审议项目,这也是该法连续第二年列入国务院立法计划预备提请审议项目。同时,不同版本的人工智能法专家建议稿亦已陆续发布或形成,产生了广泛的社会影响。然而,人工智能法治中的许多关键问题仍然有待深入研究:人工智能立法应当采取何种框架?如何保障人工智能技术和产业的负责任、可信任发展?如何确保人工智能模型的认知和表现符合人类的价值观?如何在法治轨道内保障人工智能要素的高质量、有效率供给?这些都是人工智能发展与治理所必然面对的关键问题,也是人工智能立法需要研究和解决的基础性议题。


为此,中法评专门组织了本期 “人工智能前沿法治研究” 栏目,共向读者呈现四篇论文。


郑戈 《人工智能伦理的机制设计》 一文借助经济学中机制设计理论所提供的分析框架,从激励兼容、显示原理和实施机制三个方面梳理人工智能伦理从潜在性向现实性转化的动力机制。








请到「今天看啥」查看全文