专栏名称: 中国法律评论
一个有态度、有力度、有温度的法律专业公众号
目录
相关文章推荐
Kevin在纽约  ·  好惨😥-20250106020221 ·  昨天  
Kevin在纽约  ·  2025/1/5日 人民日报- ... ·  2 天前  
Kevin在纽约  ·  1945 ... ·  2 天前  
Kevin在纽约  ·  不同的群有不同的需求吧。-202501050 ... ·  2 天前  
最高人民法院  ·  司法守护,唤子归厝 ·  4 天前  
51好读  ›  专栏  ›  中国法律评论

申军:当数据遇上知识产权 | 基于法国法与欧盟法视角的解析

中国法律评论  · 公众号  · 法律  · 2025-01-04 07:37

主要观点总结

本文是对数据与数据知识产权的探讨,涉及数据与原始数据、数据库、文本与数据挖掘等方面的知识产权问题。文章还涉及中国式的数据知识产权定义及其实践,如浙江版数据知识产权登记指南的解读。同时,文章也提到了数据三权分置、NFT的法律属性等议题。

关键观点总结

关键观点1: 数据与原始数据的定义与知识产权问题

数据和原始数据在欧盟和法国法律中的定义及其与知识产权的关系。

关键观点2: 数据库的知识产权问题

数据库的结构和内容所涉及的知识产权问题,以及数据库生产者特殊权的保护。

关键观点3: 文本与数据挖掘的知识产权问题

文本与数据挖掘过程中涉及的知识产权问题,如复制权、公众传播权等。

关键观点4: 中国式数据知识产权的探讨

中国各地出台的数据知识产权登记规范性文件,以及数据知识产权的定义、登记对象和算法规则等。


正文





作者简介


申军,法国执业律师,瀚申律师事务所创办人,里昂律师公会国际委员会成员。入选里昂律师公会从事国际业务律师名录。主要业务领域为金融、公司、并购、合同、跨境投资、欧盟及国际商事交易、欧盟及全球合规; 深耕数字经济领域的新兴法律实务(数据、区块链与数字资产、人工智能与算法、元宇宙与NFT、数字平台与反垄断、数字领域知识产权、循环经济等)。工作语言为中文、法文和英文。持有法国律师执业资格证书。里昂第三大学商事法博士(法国与美国金融市场法之比较研究)、商事法硕士 (企业法与企业金融专业、银行法与金融法专业)、企业管理学士,墨尔本大学银行法与金融法硕士,华东政法学院法学学士。获颁Édouard Lambert比较法研究所英国法文凭和美国法文凭。




特别声明:

本文仅代表作者的个人看法,不构成法律意见。

引用本文任何内容及/或观点须注明来源。



目次


前言

一、数据与原始数据

二、数据库

三、文本与数据挖掘

四、中国式数据知识产权

结语



前言



近年来,国内各地出台了不少关于数据知识产权登记的规范性文件,比如,2024年12月3日发布的浙江省《数据知识产权登记指南(征求意见稿)》。从中文字面意思上看,“数据知识产权”的概念可作多重解读。其一,与数据有关的知识产权。其二,将数据作为保护对象的知识产权。其三,针对数据设立的知识产权。


鉴于法国法及欧盟法中目前尚无数据知识产权的说法,笔者拟在前述两种法律的框架下,分别对数据与原始数据、数据库、文本与数据挖掘可能所涉的知识产权问题做一浅析,并对数据知识产权的浙江版定义做出简要解读。笔者希望藉此抛砖引玉,引发国内学界与业界对数据领域具体知识产权事宜的思考。


数据与原始数据



欧盟《数据法》和《数据治理法》的第2条第1款均规定了数据的定义,其是指行为、事实或信息的任何数字性表现,以及这些行为、事实或信息的任何辑录,尤以声音、视觉或视听记录之形式。显然,前述两项法律治下的数据定义,着眼的是数据的处理与流通,意在揭示数据潜在的经济用途与价值。鉴于它们均为可直接适用于成员国的欧盟条例,且均已生效,因此法国法也应采用相关定义。


可资对照的是,欧盟《通用数据保护条例》中所称的 “个人性质数据”(donnée à caractère personnel)或“个人数据”(personal data), 是指关乎已被辨识或可被辨识之自然人的任何信息; 这种将数据等同为某种特定信息的定义,着力体现的是个人性质数据所附着的人格权。


作为数据的一种,原始数据(donnée brute或raw data)在法国法及欧盟法中均无法定定义。从字面上讲,它是指存在于自然状态、未经加工的数据。根据法国国家信息技术与自由委员会(CNIL)赋予此类数据在人工智能背景下的定义,它是指自被初始观察以来未经任何转变的数据。依照笔者的理解,此类数据包括但不限于出自观测的或由机器生成的初级数据,尚未经由信息技术或人工智能技术之处理,未被分析和诠释。


那么,数据与原始数据是否受到法国知识产权法的保护,或是更确切地说,是否可以成为文学与艺术产权中著作者权所保护的客体?依照法国现有的法律及判例,著作者权保护的是精神作品;后者针对的是具有原创性的表达方式,而非其承载的点子或主意。


在笔者看来,上述两项欧盟法所赋予的数据定义(同样适用于法国法),均聚焦于一些基本因素的数字式表示。而在人工智能系统广为运用的今天,数据在很大程度上是由机器、互联物生成,可谓是行走于自由路径的,不是可被据有的,尤其是原始数据,尚未经过任何人为的丰富或增益,而非像精神作品那样属于一种人类创作的现象。


因此,一般而言,简单的数据更像主意或想法,仅是构成表达自由所涵盖信息的基础要素,原始数据更不例外。故而它们不能被类似为法国知识产权法所针对的精神作品,不是著作者权所保护的对象;其持有者不能像精神作品的作者那样,可以主张对其作品排他性的、可对任何人抗辩的无形财产权。所以原则上,数据与原始数据被排除于法国文学和艺术产权的范围之外。


不过,对此可以思考的问题是,受著作者权保护作品所含的数据,或是说,构成某些精神作品(地图、草图、照片、视频等)的数据是否能够成为著作者权的保护对象呢?


笔者认为,如果相关作品是原创性的,符合法国法院判例所称的体现了作者的人格印记,从而成为作者专属的智力创造,那么相关数据可否受到著作者权的保护,无疑值得讨论。如果相关数据被认为应受著作者权的保护,那么使用它们便需事先获得作者或著作者权持有人的明确授权。


此外,就元数据 (即描绘数据的数据)而言,若其原创性地描绘了以数据形式构成的精神作品,该元数据的创立者完全有可能对该作品主张著作者权; 如果元数据中包含了取自受保护作品的部分因素,那么这些因素也或会触发相关作者所享有的著作者权。


数据库



一般意义的数据库(base de données 或database)是指一个可以长期存储、管理和组织大量数据的系统,且可被实时更新。其欧盟法定义见诸编号96/9/EC的欧盟数据库法律保护指令(以下称为《数据库指令》)第1条,法国知识产权法典法律编第L112-3条第2段则近乎全部采纳了前述指令的定义内容,即数据库是任何独立的作品、数据或其他要素的汇编;它们受到系统性或有条理的布置,可被用户藉由电子手段或任何其他方式个别获取。


不难看出,该定义将作品(可以是音乐、文学、艺术或其他形式的作品)与数据予以区分。这显示出欧盟及法国立法者认为作品原则上是不同于数据的。至于其他要素或资料,则包括了文本、声音、图像、数目、事实,等等。


欧盟司法法院视野中的数据库定义则具有广泛性和功能性。在2015年所作的一项判决中,该法院确认一张地形图可被定性为数据库。为了显示数据库的存在,证明组成数据库各要素的独立性存在即可,意即这些独立的要素可以互相分开,而分开又不会使它们的信息性、文学性、艺术性、音乐性内容或其他内容之价值受到影响。


法院对该地形图作出的数据库定性,意味着如果其是原创性的,那么它将受到著作者权的保护,由此复制和向公众传播该图以及显现其上的因素,需要事先获得其作者的同意,除非存在著作者权适用的例外情形。


值得补充的是,根据巴黎上诉法院在2001年所作的一个判决,数据库的载体是否为纸质无关紧要; 这可被解读为,数据库的载体可以是物理性或数字性的。


实际上,数据库可被分解为两个部分。其一,数据库的结构。其二,数据库的内容。


具体言来,首先,如果一个数据库的结构是原创性的,那么它将就此受到著作者权的保护。依据法国知识产权法典法律篇第L112-3条,如果数据库(结构)的作者通过材料的选择或布置,使得数据库构成了作者专有的智力创造,那么其结构即可受著作者权保护。相应的权利持有人为“书写”相关结构的一个或数个自然人,比如项目主管、信息技术人员,可以因此享有执行或授权诸如数据库内容的复制、翻译、改编等著作者排他性权利。


其次,如果数据库生产者(producteur,法国法之称谓)或制作者(fabricant或maker,欧盟法之称谓)可以证明其为数据库内容的创立、核对或展现,实现了重大的金融、物质或人力投资,从而满足了法国知识产权法典法律编第L341-1条的规定,那么其便会受到数据库生产者特殊权的保护,可依照同一法典第L342-1条及L342-2条的规定,禁止数据库全部或重大部分的内容被提取(即永久或暂时移转)或再使用(即向公众提供) ; 还可禁止对非重大部分的内容进行系统性和重复性提取或再使用,当这些操作明显超出数据库的正常使用条件。对相关生产者的资格认定,则在于其是否发起了数据库的创立以及承担相应的投资风险。适格的数据库生产者特殊权持有者,可以是法人、雇主等,数个联合生产者也或会存在。


显而易见,鉴于欧盟数据库指令出台于1996年3月11日、由此转化的法国国内法的标明日期是1998年7月1日,因此当时所称的数据库之内容,现今越来越多是以出现在数据库中的数据展示。


而著作者权原则上不是为了保护数据库所包含的数据。正如《数据库指令》第3条第2段所称,该指令规定的著作者权对数据库的保护,不覆盖它们的内容。不过在某些情况下,相关数据同样可被适用著作者权,比如,数据库中以受著作者权保护的图片形式呈现的数字性数据。数据库中一般性数据(年份、城市名、计量结果之类)则不受该种权利的保护。一言以蔽之,依照欧盟法和法国法,数据库可受针对其结构的著作者权以及针对其内容的生产者特殊权保护。


文本与数据挖掘



文本与数据挖掘(fouille de textes et de données 或text and data mining),是编号2019/790的欧盟著作者权/版权与邻接权指令(以下称为《版权指令》)第2条第2项所定义的术语。根据相关定义,该术语是指旨在分析数字形式文本和数据的任何自动化分析技术,以便从中得出信息,这包括但不限于常量、趋向和关联。因此该定义是功能性的,关乎对挖掘技术过程及其目的之描述,但不对挖掘的结果给予法律定性。


若对该定义作出具体解读,那么,第一,该种挖掘所针对的数据是指各种类型的用数字表示的数据,不论其法律性质如何。这包括了原始数据、公共数据、受著作者权或近似权利(邻接权、数据库生产者特殊权)保护的数据、受法律或合约保护的秘密所覆盖的数据、欧盟《通用数据保护条例》所覆盖的个人性质数据,元数据,等等。


第二,该种挖掘在于处理、分析和交叉不同性质、不同来源、可能具有不同法律地位的数据。从技术层面讲,相关挖掘只能针对以数字表示的内容。因此,被处理的数据应是用数字表示或是预先被数字化; 任何数字性内容都可能成为数据挖掘的对象,譬如,著述、音乐、图像(不论是否为动画)、数据(以数据库的形式与否)。


第三,严格来讲,该种挖掘是指从大量受分析的数据中找出它们的关联性,以发现挖掘时尚不为人知的信息,从而体现数据的价值,而非事先知晓某个拟被搜索的词汇、在一个语料库中进行简单的数据提取。不过在实践中,一般民众乃至专业人士常常会将数据提取也视为挖掘。因此,“文本与数据挖掘”的词义应被视为是广义的,包括了数据提取。


第四,“文本与数据”表述中所称的“文本”,因被数据的表达所涵盖,故其称谓并无大的意义。事实上,《版权指令》出台前,“文本挖掘”“数据挖掘”“数据开发”等称谓均见使用。但若只提“文本”,体现的特殊性显然过强,因为那样似乎会将图像、声音、图片、地图或任何其他作品及数据排除。反之,数字形式或是用数字表达的数据之定义,同样覆盖了文本、音乐、图像及视频。


那么,文本与数据挖掘,或是简言版的数据挖掘,所涉的知识产权问题可能会有哪些? 以下笔者根据常见的数据挖掘过程,对由此或会涉及的文学与艺术产权做一简析。


其一,为进行数据收集,挖掘者使用的技术工具应对相关数据、文本至少读取一次,以便提取数据。而这种“阅读”所涉的数据、文本在相关技术系统中需被至少复制一次。如果被复制的相关内容受到著作者权保护,那么该项权利所含的复制权应予适用,挖掘者由此需要事先获取相关作者或权利持有者的授权。


其二,在成为挖掘对象的数据被收集之后,它们可能需被暂时转换格式(比如将PDF格式转变为XML格式),以便能被信息技术工具或人工智能系统开发。这意味着对相关数据的预先拷贝。故而著作者权可能也会被涉及。


其三,如果挖掘活动所获结果中包括了被开发作品之节选,那么受著作者权保护作品的引用权将会适用。


由此可见,“文本与数据挖掘”或“数据挖掘”所需的操作,一般会涉及文学与艺术产权中的著作者权,或是更确切地说,涉及属于作者的开发权中所括的复制权,鉴于在数据挖掘过程中,对相关挖掘内容(作品、数据库等)的复制(哪怕是临时性的)难以避免; 相涉内容还应被至少暂时存储、有时还需被修改(格式、汇编、合并……)。因此,在此数据挖掘框架下,任何未经作者授权对作品全部或部分的复制将构成法国法治下的伪造,除非相关行为享有著作者权规则适用之例外。


不过开发权中所括的公众传播权一般不予适用,鉴于数据挖掘的目的在于从数据中提取意义、信息和新的知识,而非向公众传播全部或部分受开发的作品。据此,任何数据挖掘所需的行为均无需将相关作品向公众传播。当然,实践中不排除挖掘者会在必要情况下,将初始的数据拷贝向第三方传播,而这自然将会触发公众传播权的适用,需要作者或相关权利持有者的预先授权。


此外,数据挖掘还可能涉及欧盟法专设的数据库生产者特殊权。


首先,如果数据挖掘者希望开发一个受保护数据库中的内容,并将对之进行数量上和/或质量上的重大提取,相关行为可能便会受御于数据库生产者特殊权。因此,挖掘者必须预先获得数据库生产者的授权(除非符合法定例外情形),并且或会根据相关谈判条件,向后者支付一定的酬劳。其次,如果在数据准备阶段,挖掘者为完成特定目标、掘取有用信息,自发创立一个数据库以用于分析,并为此付诸重大的金融、物质或人力投入,那么挖掘者也可享有数据库生产者所特有的权利。


综上,在文本与数据挖掘的背景下,就著作者权而言,对受保护内容的拷贝、复制一般会涉及作品的复制权,需要相关权利所有者的事先授权,除非存有法定例外情形。就数据库生产者特殊权而言,数据挖掘或会导致对受保护数据库内容在数量上或质量上的重大提取,由此需要数据库生产者的事先授权,除非适用法定例外。至于人工智能公司利用数据挖掘技术大规模抓取网络数据的行为,其所涉的知识产权问题不在本文的写作范围。人工智能系统的构件与整体所涉的知识产权事宜,在此亦不展开。


中国式数据知识产权



与法国法及欧盟法中不提数据知识产权的说法不同,笔者发现国内不少地方已出台了关于数据知识产权登记存证的草案。其中2024年12月3日发布的浙江省知识产权研究与服务中心等单位研究起草的《数据知识产权登记指南(征求意见稿)》,将“数据知识产权”明确英译为data intellectual property。以下笔者试对“数据知识产权”的浙江版概念,在法国法与欧盟法的认知架构下做出初步解读。


在该份浙版规范性文件中,数据知识产权被定义为:单位、个人对依法收集、经过一定算法规则加工、具有实用价值和智力成果属性的数据集合,依法享有的权益。由此可见,该项权益享有人(即成功的登记申请人)可以是自然人(个人)、法人或非法人(单位)。至于相关权益的具体内容,该定义未予阐明。


所涉的权益客体/登记对象是数据集合,可被解读为是数据集(jeu de données或data set)及/或数据库;不容忽视的是,按照该文件的说法(6.3),数据知识产权为经过一定规则处理的结构化数据。虽然这种将知识产权等同于结构化数据的说法,在正式的立法文件中会罕为出现,但是由此可见的是,相关起草者理解的数据知识产权中的数据,实际上是结构化数据的集合。这也自然便将未经加工处理的所谓原始数据排除在外。


至于“具有实用价值”,其可被释读为该产权所针对“数据集合”的可商品化(文件中提到申请人可以写明价值变现的交易条件),但未涉及或明确涉及一般数据的所有权/财产权问题,此点与笔者主张的不在广义数据上设立所有权/财产权的观点有所契合。


另外,该定义中“具有智力成果属性的数据集合”的说法,与传统意义上的知识产权似乎有些关联。依照该文件中的条款(5.2.5.1),适格的智力成果属性体现在,登记对象(数据集合)的算法规则、应用场景应有人的智力劳动付出。并且该意见稿强调,经过一定算法规则加工是体现数据集合知识产权属性的核心要件(5.2.3.1)。


不过,对多种来源的数据进行加工处理的算法规则,是个人或单位可以使用他人既有的(由此或需获得必要授权),还是须为自己投入智力劳动创立的,相关表述语焉不详,值得进一步阐明。


此外,根据该文件(5.2.3.2 与5.2.5.2),相关算法规则本身至少需要具有创新性(尽管可以不论其水平高低),并且还需能进行相对复杂的加工处理行为,比如,组织、建构,标记等,而非仅能从事简单的处理行为(采集、清洗、去噪处理),否则会被认为不具智力成果。


问题在于,如果个人需要通过比较复杂的处理行为才能使得所用算法规则具备智力成果特质,那么在其难以为之(假设其缺乏必要的金钱或技术)、故而算法规则不合智力成果标准的情况下,那么个人实质上将不能具备相关产权登记申请人的资格。如是,对广大自然人而言,该项权益是否可能会有一定程度的形同虚设之虞,便可受审视。


从比较法的认知来看,笔者认为,浙版数据知识产权所涉的登记申请人/权益享有人,在某种程度上隐约折射出欧盟法/法国法中数据库生产者的影子; 后者发起数据库的创立,为此投入重大的金钱、人力或物力,以此享有相关生产者特殊权的保护,以控制他人对数据库内容的使用,并可有偿移转或转让相关的禁止权。


对照而言,要想成为浙版数据知识产权的享有者,相关个人/单位必须确保来源合法、合规、合约的数据收集,确保对处理数据的算法规则、对可产生实用价值的数据集合应用场景投入智力劳动,方能享有此种彼种的权益。


值得观察的是,2024年11月8日由上海市知识产权局和上海市数据局发布、12月8日施行的《上海市数据产品知识产权登记存证暂行办法》,未采用上述“浙江方案”所称的“数据知识产权”,而是使用了“数据产品知识产权”的称谓,将之定义为自然人、法人或者非法人组织对其合法获取的数据资源,经过实质性加工和创新性劳动后形成的具有智力成果属性和商业价值的数据加工集合、数据加工产品、数据技术算法等数据产品享有的权益。且不论“上海方案”对“数据产品”的列举分类值得讨论、“数据技术算法”的概念需被厘清,单就相关知识产权术语的用法而言,可以合理推断的是,“数据知识产权”的称谓在国内尚未达成全国范围的共识,这是否是由于相关表达本身存有歧义还是缺乏足够的精确性,这些均可受公评。


结语



“数据知识产权”议题如今在国内日益受到关注,并且似已在中国特色数字/数据立法的体系构筑中占据了不可或缺的地位。浙江、上海等地出台的相关规范性文件,堪称相关领域内大胆和先行的尝试,值得肯定。相比来说,目前并无针对“数据知识产权”的法国法与欧盟法的理论和实践。如果国内“数据知识产权”的研究与实务既可言之有理、行之有效,又能不落碎片化监管之窠臼、避入无的放矢之盲区,那么这无疑将会为我国数字经济的发展加油助力。




推荐阅读 · 申军作品

数据三权分置与“数据取用权”

ChatGPT掠起的两项法律风险

数据如何确权与定价?以欧盟《数字治理法》为视角

如何解读欧盟《数字服务法》中“非常大的在线平台”之义务

解读欧盟《数字市场法》中的“看门人”

当NFT遇上发行权,是否适用权利穷尽原则?

透视中国NFT数字作品侵权第一案

元宇宙法律问题之再探  |  以数字化身(阿凡达)为例

元宇宙法律问题之初探  |  以沉浸式物体为例

试析上海首例石油互换合约纠纷案的二审判决

NFT的法律属性究竟是什么:以法国法和欧盟法为例

当区块链遇上《个人信息保护法》和GDPR

试析NFT的技术与法律事宜

法国及欧盟视角下个人数据的法律性质

试谈中央银行数字货币的法律事宜|以数字欧元为例

当数据开放遇上个人数据保护

《个人信息保护法》与GDPR专门用语的对照解读

【姊妹篇】《个人信息保护法》与GDPR专门议题的对照解读

【完结篇】救济途径与处罚: 《个人信息保护法》与GDPR的对照解读


中国法律评论

《中国法律评论》于2014年3月创刊,由中华人民共和国司法部主管、法律出版社有限公司主办。《中国法律评论》现为中国法学核心科研评价(CLSCI)来源期刊,中文社会科学引文索引(CSSCI)来源期刊,中国人文社会科学AMI综合评价核心期刊,全国中文核心期刊,“复印报刊资料”重要转载来源期刊。


《中国法律评论》秉持“思想之库府,策略之机枢”之理念,聚焦中国本土的法治问题,阐释法律思想,弘扬法律精神,凝聚法律智慧,研拟治理策略,为建设法治中国服务,为提升法治效能服务,为构建中国自主知识体系服务。



《中国法律评论》唯一投稿邮箱:

[email protected]

(我刊编辑部从不收取任何版面费或发稿费,任何承诺发文的收费信息均为诈骗信息)


中法评微信公众号投稿邮箱:

[email protected]


刊号:CN10-1210/D.

订刊电话:010-83938198

订刊传真:010-83938216