数据很可能是人工智能发展的瓶颈。
本轮人工智能的发展主要依靠数据、算力、算法三个方面的进步,数据对于人工智能的发展相当重要。有研究显示用于大模型训练的高质量数据即将用尽,合成数据或难解决这个挑战。
我们认为流通不畅是高质量数据不足的主因。
数据加工非常重要,但数据加工成本(如数据清洗、数据标注成本等)不是高质量数据不足的主要原因。高质量数据缺乏主因在于数据流通不足,存量数据没有得到充分利用。与数据保护和知识产权保护有关的交易成本是数据流通的主要障碍。
中国的数据治理模式强调数据确权,而近期对数据流通(效率)的重视程度在提升,比如通过“三权分置”这个简化版的数据确权方案来促进数据流通,但该方案的效果有待观察。
一个体现是目前数据交易所呈现“碎片化”状态,另一个体现是企业对数据资产入表的积极性不足。从国际经验来看,数据确权和数据流通也没有必然的联系。在美国模式下数据流通更为顺畅,欧洲模式下流通更加严格,但美国模式并未进行数据确权。
促进数据流通的关键在于降低数据交易成本。数据确权不能有效降低交易成本,而且数据本身的特点也表明对其确权难度很大。
降低数据交易成本的关键在于合理界定数据开放边界、隐私保护范围以及相关知识产权保护程度,而数据确权难以解决这些问题。数据价值在于规模性,单个数据几乎没有价值,确权可能反而会增加交易成本,不利于发挥规模经济优势。数据具有公共品属性,纯公共品类型的数据权属清晰,而非纯公共品类型的数据虽然可由市场提供,但因为数据有多生产主体等特点,使得数据确权困难,通过数据确权来激励市场提供数据充满挑战。
不同数据的交易成本来源不同,需要对症下药。
对于公共数据,我们认为,相比确权,数据开放更加重要,明确数据开放的边界(如建立数据开放白名单或者负面清单)最为重要。对于个人数据,关键在于明确个人信息保护类别清单。对于非公共非个人数据,合理界定知识产权保护程度,扩大“合理使用”原则范围,更有助于减低数据流通的交易成本,对于促进人工智能创新更为有利。
人工智能时代,数据重要性更加突出,但是数据不足问题开始显现。数据不足的原因是什么,是数据流通不足还是数据加工难?数据确权是否能够解决这些难题?
下面我们从数据对发展AI的重要性入手,结合国际经验,探讨数据治理的核心问题。
本轮人工智能的发展主要依靠数据、算力、算法三个方面的进步。在计算资源有限的情况下,提升大语言模型(Large Language Models)能力,提升数据量(Trained Tokens)还是提升算法的参数量(Parameters)对于AI模型的性能更加重要?
对此虽然有不同的观点,但至少都认为数据对于人工智能的发展相当重要。比如,OpenAI在2020年发表的论文认为,提升参数量,而不是提升数据量,对模型的训练效果更加重要[1]。而DeepMind在2022年的文章认为,提升数据量可能比提升参数量更加重要。例如,DeepMind使用了1.4万亿个词元(token)和700亿参数训练了Chinchilla模型,另一个模型Gopher用了3000亿个token 和2800亿个参数,结果是Chinchilla几乎在所有方面都优于Gopher[2]。Meta AI在2023年的研究也表明,使用更多的数据和进行更长时间的训练,较小的模型也可以实现良好的性能[3]。
实际上,人工智能发展的一些历史经验表明,数据很可能是人工智能发展的瓶颈。
人工智能历史上,二十世纪八十年代以来,从算法突破到实践突破,平均需要18年。然而,从数据集发布到实践突破只需要3年(图表9.1)。一定程度上说明了,数据集对于实现实践领域的突破更为重要,而不是算法。从这个意义上来说,如人工智能业界所说,“数据和(数据的)特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”[4]。
资料来源:Alexander Wissner-Gross, Datasets Over Algorithms, 2016.,中金公司研究部
1997年,当IBM的Deep Blue击败Garry Kasparov成为世界冠军时,其核心算法NegaScout算法已有14年的历史,而其使用的包含70万场特级国际象棋游戏的关键数据集只有6年的历史。2005年,Google基于1988年发布的统计机器翻译算法,在阿拉伯语-英语和中文-英语翻译方面取得了突破,但其使用的数据来自于2005年收集的谷歌网页和新闻页面的1.8万亿个词元。2014年,谷歌的GoogLeNet使用1989年提出的卷积神经网络算法在对象分类方面实现了接近人类水平的性能,但其使用的ImageNet 语料库仅在2010年才首次可用。在2015年,Google的Deepmind通过视频学习,在玩29款Atari游戏上达到了与人类相当的水平,其使用的算法是1992年发布的Q-learning强化学习算法,而使用的数据集是2013年推出的。
当下的情况是,大模型也确实越来越依赖数据。
大模型所使用的数据量已经从GB级别增长到TB(1TB=1024GB)级别。截至2024年3月,大模型使用的词元数量已达到40万亿级别[5]。数据量与参数量之比也越来越高,显示大模型越来越依赖数据(图表9.2)。相比于存量数据,增量数据的规模受制于采集成本,增速或难以大幅提升。根据《数字中国发展报告(2022年)》,截至2022年底,中国的存储量达 724.5EB,同比增长21.1%。数据的增长需要依靠采集设备,而数据采集设备的部署需要成本,限制了数据增长的增速。根据IoT Analytics的数据,全球IoT和非IoT设备在2019至2025年间将从20亿台增长至41.2亿台[6],年均增速为13%,相比于2010-2019年的增速(10%)仅提升了3个百分点[7]。
对于大模型训练,不仅需要一般的数据,高质量数据更不可或缺。
高质量的数据一般具有完整性、一致性、有效性、准确性、及时性,是更加结构化,有逻辑性的数据,如书籍、报告等。与之对比,一些文本数据相对结构松散,逻辑性不强,质量相对偏低,如没有经过严格筛选的社交媒体对话数据。高质量数据可以更好的模拟客观世界,使模型预测的分布更加接近真实世界的数据分布,从而提升模型的效果。而使用低质量的数据会产生“垃圾进,垃圾出”(garbage in,garbage out)的效果,对于模型能力没有提升,反而可能有害。例如,有研究表明,当训练数据中包含低质量的重复数据时,模型性能反而会降低[8]。
有研究显示,用于大模型训练的高质量数据可能在不久的将来就被用尽。
GPT-3.5训练所使用的词元数为3000亿,与高质量文本数据总量(9万亿)只相差一个数量级,而人工智能训练所使用的数据呈指数级上涨,使得可用的数据很快显现不足。比如,根据研究机构Epoch的Pablo Villalobos等人的测算,全球的高质量语料在2026年前将用尽,其他的相对低质量的数据在2030~2050年也将用尽,视觉文件在2030~2060年间可能用尽(图表9.3)。
有一种观点是合成数据能够解决高质量数据短缺问题,但对此存在争议。
例如,Meta的研究团队认为,合成数据可以用于训练大模型,提升大模型的能力[9]。同样,微软的研究团队也发现使用合成数据降低了训练成本,提高了训练效率[10]。而根据牛津大学、剑桥大学等的研究,如果AI用AI生成的合成数据进行训练,AI模型将出现崩溃(Model Collapse),输出低多样性和低质量的结果[11]。就像健康的生态系统需要生物多样性一样,人工智能需要其训练数据的多样性才能继续提供高质量的生成内容,因此高质量数据不可或缺。至少目前来看,还没有清晰的证据表明合成数据可以解决高质量数据短缺的问题。
资料来源:Thompson, A., What’s in my AI?, 2022.,中金公司研究部
资料来源:Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M. and Ho, A., Will we run out of data? an analysis of the limits of scaling datasets in machine learning., 2022.,中金公司研究部
高质量数据供给取决于两个因素,即数据流通和数据加工。
我们将数据流通定义为数据的权利关系从一个主体转移到另一个主体,包括数据采集、数据交易、数据公开等;将数据加工定义为在既有数据上挖掘出新数据,包括数据清洗、数据标记等,是从低质量数据变为高质量数据的过程,这个过程不包含数据权利关系的转移。对于数据采集,需要注意的是采集个人数据会涉及权利关系的转移,属于我们所讨论的数据流通。而采集制造业的机器数据,没有权利关系的转移,更多的是和数据采集技术有关,在我们所定义的数据流通里面并未涉及。数据流通可以先于数据加工,即将原始数据流通后再进行加工,变成高质量数据。数据加工也可以先于数据流通,比如将原始数据加工成高质量数据再流通。数据流通和数据加工可能无法完全分开,也可能会交织在一起,如将数据清洗外包给外部团队,这个过程中同时也发生了数据流通。
我们首先分析一下中国数据流通问题,简单来说,数据流通不足的现象比较突出。
从数据产量来看,2022年中国数据产量达8.1ZB,同比增长 22.7%,全球占比达 10.5%,位居世界第二(图表9.4)。从数据总产量、单位人口数据产量、单位GDP数据产量来看,中国均低于美国(图表9.4)。一个主要的差别在于美国的数字经济企业不仅为美国国内用户提供服务,而且为全球用户提供服务,而中国的数字经济企业主要是服务国内用户。例如,2023年,Facebook的MAU(月活跃用户数量)为30亿人,而微信的MAU为13亿人,两者之比为230%,与美国对中国的数据量之比(242%)接近。2020-2022年,国家统计局在深圳做了试点,对深圳全市企业数据要素按照支出法做了统计。据深圳市统计局测算,2022年深圳全市企业数据要素支出超过1000亿元[12]。根据国家发改委的测算,2022年全国企业的数据要素支出估计在3.3万亿元左右,相当于全国GDP的3%[13]。
注:IDC的全球数据圈数据显示,中国数据量规模2022年为28.05ZB,北美为23.88ZB,与《数字中国发展报告》中数据存在差异。这种差异与数据口径有关,IDC的数据圈被定义为创建、采集、复制的数据,范围比数据生成更加广泛。由于数据可得性,右图使用的为2021年数据。
资料来源:网信办:《数字中国发展报告》,2023,中金公司研究部
但是,中国的数据市场规模较小,表明数据流通还有很大的提升空间。
从这个方面来看,高质量数据不足并不是因为缺少数据,而是缺少可以流通起来、可以供大模型使用的数据。根据On Audience的数据,2021年,全球数据市场规模仅为523亿美元。其中,美国为306亿美元,欧洲为76亿美元,中国为73亿美元(图表9.5)。根据工业信息安全发展研究中心发布的《中国数据要素市场发展报告(2021-2022)》的测算,2021年中国数据要素市场规模约为815亿元,预计2025年规模有望接近2000亿元。根据上海数交所等发布的《2023年中国数据交易市场研究分析报告》,2022年中国数据交易市场规模为876.8亿元,到2025年中国数据交易市场规模有望达到2046.0亿元。与数据要素的重要地位相比,数据市场的规模是较小的。不过,即使是数据市场规模最大的美国,其数据市场的规模也是比较小的。相较于英文,互联网上可用的中文数据总量也有较大差距(图表9.6),可能的原因包括中文互联网生态发展较晚;中文数据管理分散,高质量数据集缺乏整合;中文互联网生态中私域数据更加盛行,有效公开数据量不足等。
中国数据流通不足的一个体现是数据交易所的数量多,但数据的交易量少。
至2023年,从头部数据交易所公布数据来看,从成立开始累计交易金额均为几十亿元。例如,至2023年底,深圳数据交易所累计交易金额超过65亿元[14]。到2023年10月,贵阳大数据交易所累计交易金额超16亿元[15]。到2023年11月,北京国际大数据交易所累计交易规模超20亿元[16]。与之对比,场外交易更加广泛。根据信通院发布的《数据要素白皮书(2023)》,中国数据的场外交易是场内交易规模的50倍。根据《全国数据资源调查报告(2023年)》,中国场内交易活跃度较低,产品成交率不高,27家交易所上架数据产品中仅有17.9%实现交易。
数据流通不足的第一个原因是数据保护边界不清,比如隐私保护、数据安全等问题使得数据流通带来的风险较大。
例如,美国的数据交易主要是场外交易,数据经纪商(data broker)是场外交易中的重要中介机构。数据经纪商通过汇聚二手数据、加工、分析并形成标准化数据产品进行销售。美国数据经纪商的数据来源,包括联邦政府数据、地方政府数据、公共数据、商业数据和其他数据经济商的数据。美国的数据经纪商收集的数据几乎覆盖每一个美国消费者,包括破产信息、投票登记、消费者购买数据、网页浏览活动等。
美国数据经纪商促进了数据的流通,但是也面临着隐私保护方面的诉讼。2022年,美国联邦贸易委员会(Federal Trade Commission)对数据经纪人Kochava Inc.提起诉讼[17]。Kochava拥有关于消费者的大量位置数据,声称其位置数据流每月处理超过940亿次地理交易,拥有1.25亿月活跃用户和3500万日活跃用户。FTC指控该公司出售来自数亿台移动设备的地理位置数据,这些数据可用于追踪个人往返敏感地点的动向。2024年,FTC发布禁令,禁止数据经纪商X-Mode和Outlogic未经用户同意,出售敏感的地理位置数据[18]。人工智能时代,同样可能存在隐私侵犯风险。例如,自动驾驶依赖车载摄像头,无论是采集车内还是车外的影像,都难以取得被影响的所有个人的同意。2022年,ImageNet管理团队推出新论文“A Study of Face Obfuscation in ImageNet”,出于隐私考虑,对ImageNet中的人脸做了模糊化处理[19]。
数据流通不足的第二个原因是收益分配机制不明确。
知识产权保护问题,使得数据收集面临不确定性。第一类知识产权问题是AI使用的数据是否侵犯知识产权。例如,盖蒂图片档案馆(Getty photo archive)起诉Stability AI,指控其在未经许可或无补偿的情况下复制了1200万张图像以训练其AI模型[20]。纽约时报诉OpenAI和微软,指控二者未经许可使用其数百万篇文章以训练人工智能模型,与该新闻机构形成竞争[21]。第二类知识产权问题是AI生成的数据是否具有知识产权。在中国的AI文生图案中,一个案例是,原告李某使用Stable Diffusion这款AI绘画大模型软件,生成写真图片,未经许可被被告刘某使用。原告认为,被告侵犯了其著作权[22]。问题在于,使用人工智能生成的作品是否享有著作权?
以上是关于数据流通的分析,接下来我们看看数据的加工成本问题。大模型训练一般需要经过预训练、精调、行业场景精调三个阶段。
从使用的数据集来看,预训练使用的是无标注数据集,包括各种百科全书、文本、代码、网站,也包括图像、视频,数据量在TB级别;精调以及行业场景精调使用的是标注数据集(或者说是反馈数据集),如问答对话、标注过的人脸图片等,或者如由人类专家来判断模型输出的问答结果来打分,数据量在MB至GB级别。从训练方法来看,预训练使用的是无监督学习方法,精调以及行业场景精调使用的是监督学习和强化学习方法。
预训练阶段,大语言模型使用的数据主要来自互联网,这个过程中需要投入成本去爬取数据。由于已有很多公开的、爬取好的原始数据集,无须付出额外的爬取成本。
大语言模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、代码、以及互联网爬虫等(图表9.7)。例如,Common Crawl抓取了2008年至今的互联网上的文本数据,形成了一个公开的数据集,成为众多大模型预训练的基础语料库。以GPT-3为例,其预训练使用的数据中80%是来自Common Crawl。
预训练阶段,需要先进行数据清洗,形成高质量数据才能用于训练,这个过程涉及到清洗成本。
在收集大量数据后,对数据进行预处理,特别是消除噪声、重复、无关和潜在有害的数据,对于构建高质量预训练语料库是必不可少的。使用低质量的数据,对于模型可能并没有正面作用,反而可能会对模型的能力和性能产生负面影响。因为通常也有清洗好的公开数据可以用于大模型训练,因此这部分成本可能也不是关键。以Common Crawl为例,大模型训练一般会首先选取它的纯英文公开过滤版(C4)作为数据集。Common Crawl的C4数据集为305GB,其中词元数为1560亿,数据主要是来自谷歌专利、纽约时报等[23]。
数据清洗过程通常包括:(1)去重,即去除重复的文本数据,一般以句子为单位;(2)文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;(3)文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;(4)分词,即将句子拆分成单个的词;(5)词的清洗,如去除停用词等;(6)词的正则化或标准化,如统一数字的写法等。图表9.8提供了一个简化的预训练的数据处理过程。
图表9.7:大语言模型预训练使用的数据主要来自互联网公开数据
资料来源:Thompson, A., What’s in my AI?, 2022.,中金公司研究部
资料来源:Zhao, W.X. et al., A survey of large language models., 2023.,中金公司研究部
人工标注的数据是大模型精调的基础,涉及标注成本。
例如,由斯坦福大学教授李飞飞创建的ImageNet数据库发布于2009年,包含1400多万张图像,2万多个类别,推动了人工智能图像识别领域的发展。CityScapes是目前自动驾驶领域最重要的图像语义分割评测集之一,注重理解真实场景下的城区道路环境,拥有5000张精标注图片和20000张粗标注图片。根据Cityscapes数据,对一张图片做精标注平均需要1.5小时[24]。而且,一个数据通常会由多个人来标注,以减少标注的错误。
人工标注是劳动密集型工作,但总体标注成本并不高。而且,通过使用数据标注众包平台,可以降低数据标注成本。
ImageNet最初使用本科生进行打标,需要19年完成。后来,使用亚马逊Mechanical Turk众包平台,完成时间缩短到1年内。如果按照Google Cloud众包平台的报价,对每千单位图像进行分类需要35美元[25]。以此类推,对1000万张图片做分类,需要百万美元级别的预算(假设一个图片标注5次,需要175万美元)。国内的数据标记成本在0.04~0.5元/图片,每千图片大约在6~75美元,和谷歌平台的报价差别不是很大[26]。
为了降低成本,数据标注通常在发展中国家进行,也为发展中国家带来了一些就业机遇。
根据对一些众包平台的就业数据统计,数据标注产生的就业机会加起来有近千万人(图表9.9)[27]。2021年的一项研究估计,有1.63亿人在在线劳工平台上建立了个人资料,其中1400万人至少通过在线平台获得过一次工作,330万人完成了至少10个项目或至少获得1,000美元的收入[28]。直接统计数据标注行业就业的数据较少,但根据国际劳工组织的数据,包括数据标注在内的各种线上就业中,来自印度、孟加拉国、巴基斯坦这些发展中国家的劳动者占比最高[29]。根据线上数据众包平台Clickworker的数据,其成员有15%来自亚洲,7%来自南美洲[30]。
近两年,中文语料库追赶较快,也表明数据加工成本可能不是高质量数据的主要约束。
中文的公开语料库虽然起步较晚,但近两年增长较快,几个例子如下(图表9.10)。(1)WuDaoCorpora是北京智源人工智能研究院构建的大规模、高质量数据集,由文本、对话、图文对、视频文本对四部分组成,采用20多种规则从100TB原始网页数据中清洗得出最终数据集,数据总量为5TB。(2)书生·万卷1.0是基于大模型数据联盟构建的语料库,由上海AI实验室对其中部分数据进行清洗形成的数据库,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。其中,书生·万卷文本数据集1.0由来自网页、百科、书籍、专利、教材、考题等不同来源清洗后组成,数据总量超过5亿个文档,数据大小超过1TB。书生·万卷图文数据集1.0数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB。书生·万卷视频数据集1.0主要来自中央广播电视总台和上海文广集团,包含多种类型的节目影像,视频文件数超过1000个,数据大小超过900GB。(3)昆仑万维的Skypile-150B数据集包含超过150亿高质量中文token,数据大小为600GB。
资料来源:Zhao, W.X. et al, A survey of large language models., 2023.,中金公司研究部
随着中文语料库的进步,中文大模型性能也提升较快。
使用基于英文语料库的大模型,输入阶段中文需要翻译成英文,输出阶段英文需要翻译成中文,这个过程必然会有信息损失,产生词不达意的效果。因此,需要结合中文语料库来训练大模型,跳过翻译这个过程,才能产生更符合中文规范的输出结果。在起步阶段,由于中文语料库相对欠缺,中文大模型的表现相比ChatGPT的差距比较明显。随着中文语料库的进步,融合了中文语料库的通义千问、Kimichat、智谱清言等大模型性能已达到较高水平。根据SuperCLUE(中文大模型测评基准)2024年4月的排名,通义千问在生成与创作这一项能力上得分为75.6分,超过了GPT-4的73.4分[31]。
以上分析表明,数据加工成本应该不是高质量数据不足的主要障碍,高质量数据不足的根本原因可能是数据流通不足。
虽然从原生的数据资源到数据资产化再到数据产品,数据形态演变的过程需要经历数据筛选、分级和标注,中间附着的人力成本和硬件成本不菲,但是数据加工的成本总体仍然是相对较小的。对于发展AI,需要的是能够将数据聚合起来成为一个数据集,这更加需要解决数据流通问题。
对于AI发展,有非具身和具身智能两个方向,但关键还是要把数据流通起来。
1950年,图灵在论文“Computing Machinery and Intelligence”中首次提出了具身智能的概念[32]。图灵在论文中展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算所需的智能,另一条路则是为机器配备传感器,使其可以学习,与人类交流和与现实世界互动。这两条道路便逐渐演变成了非具身和具身智能。
对于非具身人工智能(Disembodied AI),从以Mid-journey和Sora为例的多模态大模型看,在训练阶段需要大量图像-文本对、视频-文本对等有标注数据集进行训练。图像-文本对是包含一张图像和一段描述该图像内容的文本的数据,让模型学习文字与图像间的关联。视频-文本对包括一个短视频和一段描述视频中发生事件的文本,让模型不仅学习单个画面,还需要理解视频中的时间序列和动态变化。
具身智能(Embodied AI),即能理解、推理和与物理世界互动的智能系统,是未来AI发展的方向,人形机器人是实现方式之一,其发展也需要更多的数据流通起来。具身智能所需要的数据从文本扩展至音频、图像、视频、触觉、嗅觉、味觉等更多维度。2023年,DeepMind与33家机构的学术研究实验室展开合作,构建了Open X-Embodiment数据集,是具身智能领域的重要数据集。他们从22个机器人实例中收集数据,涵盖超过100万个片段,展示了机器人500多项技能和在150000项任务上的表现[33]。
中国的数据治理比较偏重安全,但近期的变化是兼顾数据安全和效率,也就是对数据流通的重视程度在提升(图表9.11)。
2022年,中国完善数据基础制度建设,更注重保障数据安全。在安全保障方面,《数据安全法》建立了数据分类分级制度,完善数据安全风险评估和监测预警机制,跨境数据流动管理机制,明确各方主体数据安全保护义务,全方位保护数据安全[34]。此外,针对重点领域,多个监管法规进行了安全规制。《互联网信息服务算法推荐管理规定》明确安全理念、多元共治机制和主体责任,构建平台算法全生命周期的治理框架[35]。在数据流通方面,《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)建立了数据资源产权制度,明确了各方在数据生产、流通、使用中的权利,促进数据要素的合规流通和公平收益分配,推动数据治理的安全、可控发展[36]。
2023年,中国在进一步完善数据安全保障体系的基础上,重点推进数据流通。
2023年10月,国家数据局挂牌成立,统筹协调数字经济建设,提出了《“数据要素x”三年行动计划(2024-2026年)》,推动发挥重点行业领域数据乘数效应,促进数据基础资源优势转化为经济发展新优势[37]。2023年8月,财政部发布《企业数据资源相关会计处理暂行规定》,明确数据资源可作为无形资产可计入资产负债表,推动数据资源向数字资产转变[38]。地方层面,北京、安徽、浙江、厦门、广州等多个省市纷纷发布公共数据授权运营的规范文件,以提升数据要素市场的有效供给,积极释放公共数据价值。《规范和促进数据跨境流动规定(征求意见稿)》在坚持重要数据严格规制的前提下,豁免部分个人信息出境安全评估,细化数据安全评估范围,延长安全评估期限[39]。在安全保障方面,《生成式人工智能服务管理暂行办法》强调了以发展和安全并重、促进创新和依法治理相结合的原则,对生成式人工智能服务实行包容审慎和分类分级监管[40]。《科技伦理审查办法(试行)》强调了数据处理活动以及研究开发数据新技术等要符合国家数据安全和个人信息保护等规定[41]。
图表9.11:中国的数据治理对数据流通的重视程度在提升
资料来源:许可:《2024年中国数据治理前瞻:再平衡与新常态》,2024.,中金公司研究部
中国数据治理方面的一个重要思路是数据确权(图表9.12),但数据确权问题非常复杂。为了促进数据流通,目前的思路是不回避对所有权问题的继续探讨,但采用“三权分置”方法,先强调使用权,以便数据流通。
资料来源:江小涓:《十个关键词谈数据要素发挥作用的着眼点和着力点》,2023.,中金公司研究部
2020年,《关于构建更加完善的要素市场化配置体制机制的意见》将数据正式列为新型生产要素。同年,《十四五规划和2035年远景目标建议》提出完善数据要素产权性质。2022年,《关于加快建设全国统一大市场的意见》指出要加快培育数据要素市场。2022年,《数据二十条》确定了数据产权的“三权分置”方案:“根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”[42]。“三权分置”是一种特殊的权利束结构,考虑到数据各方权益的复杂性,淡化了所有权这个集合概念,而是强调数据资源持有权、数据加工使用权、数据产品经营权这三项权利,以促进数据的流通使用。
“三权分置”方案本质上没有完全解决数据确权问题,正如中国社会科学院大学教授江小涓所说“数据产权问题十分复杂,确权、定价都有难度,最终定下的原则是不能回避对所有权问题的继续探讨,当前先强调使用权”[43]。
但“三权分置”也没有明显促进数据流通。第一个体现是目前数据交易所呈现“碎片化”,数据流通仍然困难。
设立场内数据交易所,一定程度上有助于数据的流通,但是国内数据交易平台没有统一的模式,各有特色,各个数据交易平台间的数据难以聚合成一个数据集,“数据孤岛”现象仍然未解决。(1)服务模式有差异。中国的数据交易所有“第三方数据交易模式”和“综合数据服务模式”两种,不同的服务模式可以满足不同的需求,但是不利于数据聚合,发挥规模效应。“第三方数据交易模式”仅提供数据交易平台服务,如北京中关村大数据交易平台、上海数据交易所、深圳数据交易所等采取的是这种模式。“综合数据服务模式”不仅提供数据交易平台服务,还直接参与数据采集、分析与处理等,满足客户的个性化需求,贵阳大数据交易所采取的是这种模式。(2)数据来源、交付方式、标准规范有差异,使得数据整合成本较高。从来源看,有公共数据、企业内部数据、网页爬虫数据等类别。从交付方式来看,包含API、数据包、分析报告等等。从标准来看,各交易所的标准不一,缺乏统一的交付规范。
第二个体现是企业对数据资产入表的积极性不足。
确权、入表、交易是在数据确权思路下数据流通的三个过程。确权是法律问题,入表是会计问题,交易是市场问题。2022年底,财政部下发《企业数据资源相关会计处理暂行规定》征求意见稿,2023年8月发布正式稿,2024年1月1日起正式施行[44]。理论上来说,数据资产可以增加企业信誉和改善资产负债表,未来数据资产也可以用来融资,如数据质押贷款、数据资产担保和数据资产证券化等。会计处理上,数据资产可计入无形资产或者存货科目。如果数据资产在使用和销售时不具有排他性就是无形资产,如果存在排他性就是存货。在《企业数据资源相关会计处理暂行规定》之前,一笔和数据资产有关的支出,企业在会计处理上可能更倾向记为费用,而现在有可能会考虑资本化处理,增强企业的资产负债表。目前数据资产的估值方法有三种,即市场法、成本法、收益法,不脱离现行规则制度。2023年10月,中评协印发《数据资产评估指导意见》,明确了数据资产的三种估值方法[45]。
因为确权问题没有解决,《企业数据资源相关会计处理暂行规定》出台后,企业对于数据资产入表仍主要在观望。
在数据没有入表的情况下,数据交易也难以大规模推进,数据流通仍是挑战。从2024年一季度的上市公司财报来看,有20余家企业在数据资产负债表中披露了“数据资源”,在五千余家上市公司中占比仍然较低。
实际上,国际经验显示,数据确权和数据流通之间可能没有必然的联系。
目前,全球范围内在数据治理上有三种思路,即欧盟模式、中国模式、美国模式。相对来说,在数据治理上,欧洲更加重视数据安全(隐私保护),中国兼顾安全和效率,美国更加重视效率。
在数据流通方面,美国模式下流通更为顺畅,欧洲模式下流通更难,但美国模式并未进行数据确权。
(1)欧盟模式。在治理理念上,欧盟重视数据安全的一个体现是将隐私视为基本人权来保护个人信息的安全。1953年,《欧洲人权公约》第八条规定,每个人的“私人及家庭生活、其家庭以及其通讯隐私”的权利与自由必须受到尊重[46]。2000年,《欧盟基本权利宪章》除了规定隐私权之外,还将个人信息保护上升为一种独立的公民基本权利[47]。在治理思路上,欧盟希望通过加强个人对数据的控制权,来促进数据流通。在《欧洲数据战略》中,欧盟阐述其目标是创建一个单一数据空间,一个真正的数据单一市场且面向世界开放,其中个人和非个人数据都是安全的,企业也可以轻松访问无限的高质量工业数据,并利用数据促进经济增长、创造价值,同时最大程度地减少人为碳排放和环境破坏[48]。在代表性立法上,欧盟在2018年施行了《通用数据处理条例(GDPR)》,对全球数据治理的法律法规起到了引领作用[49]。
(2)美国模式。在治理理念上,美国崇尚自由主义,倾向于限制政府权利。比起大公司而言,美国人更加担心政府以保护个人隐私之名行侵犯隐私、自由之事。对于美国人而言,“隐私权”的定义是免于政府监控的自由、是在私人住所中不受打扰的权利。在治理思路上,美国是淡化控制和产权,重视数据使用,在国家层面并无顶层设计。联邦层面上,至2024年6月,《美国数据隐私和保护法案》还未通过,更多的是州层面和行业层面的立法。例如,《加州消费者隐私法案(CCPA)》在2018年施行[50],《健康保险流通与责任法(HIPAA)》在1996年施行[51]。
那么,促进数据流通最关键的一环是什么呢?我们认为在于降低交易成本。数据的交易成本有两个来源,一个是数据保护,另一个是权责分配。
数据保护包括隐私保护、数据安全等,对隐私保护、数据安全问题的过度关注会增加数据流通的成本。权责分配指的是知识产权的激励机制是否合理,过度的知识产权保护实际上增加了数据流通的成本。那么,确权能不能降低数据交易成本呢,是不是数据治理方面最核心的问题呢?
我们认为,数据确权不能改变数据保护的边界不清的问题(数据保护问题),数据确权也没有改变知识产权的分配问题,数据确权难以降低交易成本,并非数据治理最核心的问题。
从规模经济视角来看,确权可能反而增加交易成本。
数据具有非竞争性,边际成本为零。因此,数据具有规模经济基础。单个数据没有价值,大数据才有价值,数据需要通过流通,聚合到一起,才能发挥规模经济优势,没有规模的数据难以产生价值。从规模经济视角来看,数据确权可能不会减少交易成本,反而可能增加交易成本,更不利于数据流通。
我们认为,促进公共数据流通的关键在于合理设定开放边界,促进个人数据流通的关键在于合理界定隐私保护范围,而促进非公共非个人数据流通的关键在于合理界定知识产权。下面我们分别予以讨论。
中国公共数据实际开放程度有待提升。
公共数据开放对提升高质量数据供给有非常重要的意义。2016年,国务院出台《政务信息资源共享管理暂行办法》,将政务信息资源按共享类型分为无条件共享、有条件共享、不予共享等三种。2022年,国务院印发《全国一体化政务大数据体系建设指南》[52]。中国公共数据开放平台数量不断增加,公共数据的开放发展也较快,根据复旦大学的《中国地方公共数据开放利用报告》[53],中国地方政府开放数据集个数从2017年的不足1万个增长到2023年的近35万个(图表9.13)。对于AI的发展来说,如政府部门的裁判文书、智慧城市数据等都可以用于AI训练。虽然公共数据集数量也在增加,但是相比于欧美的开放程度仍有不足。与欧洲公共数据平台上超过150万数据集相比,中国的数据集到2023年不足40万个。数据集的使用不够便捷、不够充分。接口服务(API)允许用户通过事先约定好的标准方式在线访问数据。2022年,很多省份的公共数据接口率(接口服务数除以数据集数)不高(图表9.14)。2022年,下载率(下载量除以浏览量)超过20%的省份/直辖市有上海(28.97%)、贵州(21.34%)和湖南(20.78%),很多省份的数据下载率在10%以下。
资料来源:复旦大学:《中国地方公共数据开放利用报告》,2023,中金公司研究部
注:表中为2022年数据。
资料来源:沈艳、冯冬发:《数字中国建设中的公共数据开放》,2023,中金公司研究部
缺乏统一的公共数据开放平台和开放标准,也使得公共数据获取不易。
目前,中国的公共数据开放平台以地方主导,各地的开放标准不一,使得公共数据难以汇集。根据复旦大学的《中国地方公共数据开放利用报告》,截至2023年8月,中国省市级的地方政府数据开放平台从2017年的20个增长到2023下半年的226个,而目前还缺少国家层面的数据开放平台。
在公共数据领域,美国开放最早,欧洲次之,数据开放程度均较高,但是都未进行数据确权,说明数据确权并非数据开放的前提条件。
对于科技创新来说,事前很难判断什么样的数据会起到作用,因此最好的做法是尽量充分地做到数据开放,由市场和企业来探索什么样的数据会起到作用。公共数据开放,使得小企业也能获得数据,更加公平。小企业更可能出现突破式创新,提升效率[54]。例如,在人工智能的发展方面,是OpenAI这个相对较小的企业最先取得突破,而不是谷歌、Meta等大企业。
1966年,美国通过《信息自由法》,规定美国联邦各机构公布不属于免予公开范围内的信息,其原则是“以公开为原则、不公开为例外”[55]。2009年,美国颁布《开放政府指令》,要求以透明、参与、协同为原则,进一步公开政府数据,使公众了解政府信息[56]。在《开放政府指令》颁布后,2009年Data.gov正式上线,成为美国国家层面的政府数据开放平台。Data.gov的数据量较大,主题丰富,截至2024年5月共公开了29.3万个数据集,涵盖工业、商业、气候、能源、健康等主题。Data.gov将不同的数据源集合起来,提供了一个统一的数据来源,并提供了不同的数据格式和分析工具,以便于公共使用。
2011年,欧盟委员会通过“开放数据战略”以及《公共数据数字公开化决议》,明确了公共数据以“全部公开、例外不公开”为原则,向社会开放。2021年,欧盟整合统一建立了官方政府数据开放平台European data portal,成为欧盟开放数据的单一访问点。截至2024年5月,European data portal涵盖了35个国家的172.6万个数据集,主要分为医疗、交通、教育、能源、环境、食品、科技、人口、司法等14大类[57]。
公共数据的开放关键在于明确数据开放边界,降低数据开放带来的风险。
目前,中国的公共数据的开放边界和后果不够清晰,阻碍了公共数据的进一步开放。2023年12月,国家数据局表示目前数据开放存在“不愿开放、不敢开放、不会开放”难题,要“解决好安全保护和流通利用的矛盾”[58]。“不敢开放”的原因是数据大范围流通会导致安全管理边界扩大。2024年,中国社会科学院大学教授江小涓认为政府数据开放动力不足的原因是“作为数据提供者的政府机构并不能从中直接得到经济回报,相反承担着泄露商业秘密和个人隐私的巨大风险,即便对数据采取‘脱敏’处理也无法完全消除隐患”[59]。
裁判文书网是公共数据开放的一个案例,但近年的开放文书数量在下降,一个原因在于数据开放有风险。
2013年,最高法院发布《裁判文书上网公布暂行办法》,明确生效裁判文书全部公开,同年裁判文书网上线。根据2016年发布的《最高人民法院关于人民法院在互联网公布裁判文书的规定》,除了少数涉及国家秘密、未成年人犯罪、离婚诉讼等不宜公开的内容外,人民法院做出的所有裁判文书均应在中国裁判文书网公开。截至2024年5月,根据裁判文书网的公开信息,累计公开了1.46亿篇裁判文书。但是,裁判文书的公开也引起“社会关注增多”,“存在的不足屡屡被诟病”[60]。其中一个被“诟病”的方面是权利保护的问题。上网文书承载着各类事实性、身份性信息,引起个人找工作被拒,家庭不睦,企业融资贷款受阻、商业合作困难等问题[61]。除了权利保护问题,最高法院也指出裁判文书公开引起的“诟病”包括同案不同判,数据爬虫后的信息倒卖等问题。由于裁判文书开放有风险,裁判文书的开放数量逐年下降,从2020年的1920万件、2021年的1490万件降至2022年的1040万件[62]。
(二)促进个人数据流通的关键在于合理界定隐私保护范围
中国的《个人信息保护法》在个人信息保护上借鉴了GDPR。
例如,在事前的数据收集机制上,《通用数据处理条例(GDPR)》《个人信息保护法(PIPL)》均采用“同意-授权”(opt-in)模式[63],即个人同意是数据处理的前提,非经个人同意,不得对个人信息进行处理。而美国的《加州消费者隐私法案(CCPA)》以“选择-退出”(opt-out)为主要模式,即在收集数据时,用户同意不是必要的前提,除非用户拒绝或退出,否则公司可以继续处理用户的个人信息[64]。《通用数据处理条例(GDPR)》《个人信息保护法(PIPL)》均对数据处理者采取过错推定,即数据处理者需要证明自己没有过错,而《加州消费者隐私法案(CCPA)》没有这项要求。实际上,GDPR的实施具有“布鲁塞尔效应”,即欧盟在数字治理领域制定的规则起到了全球示范效应,使全球众多国家的数据治理规则受到影响。
但是,众多研究表明,由于GDPR设置了严格的个人信息保护标准,导致数据流通的交易成本过高,特别是对中小企业。
例如:(1)GDPR增加了合规成本。根据有关研究,2017年英国员工数量为100到249人的企业,为应对GDPR的合规成本平均达94.7万英镑,相当于平均每个员工的合规成本是5400英镑,接近英国2017年十周的平均周薪[65]。(2)减少数据流通,压制风险投资。相关的学术研究发现,GDPR减少了数据的流通,导致网页浏览和访问减少了10%[66];GDPR使得cookie的收集减少了12.5%[67];GDPR实施后,欧盟的科技领域风险投资相比于美国减少了26%[68];GDPR使得谷歌商店中的应用程序整体减少了三分之一[69]。(3)GDPR对中小企业更不利。有实证研究表明,GDPR降低了企业8%的盈利和2%的收入,对中小企业的不利影响更大[70]。因为对小企业的负面影响更大,GDPR实施后市场的集中度更高了[71]。
从根源来看,GDPR有内在矛盾,交易成本增加是必然结果。
GDPR要实现双重目标,一是保护个人数据处理和流通过程中所涉及到的自然人的基本权利与自由,尤其保护其个人隐私;另一方面是促进个人信息在欧盟境内的自由流通。而这两个目标有冲突,比如极端情况下,要保护个人隐私,最好的方式是数据完全不流通。为了实现这两个目的,GDPR 的治理模式是统一数据保护水平,强化个人信息保护,赋予个人更强的控制权,结果是数据流通的交易成本增加。GDPR的一个理念是,如果个人知道有关自己的信息得到很好保护,会更加放心地让数据流通。但从GDPR的实践来看,强调隐私保护的同时就已经增加了数据流通的难度。
具体来说,GDPR在四个方面加大了交易成本,中国在信息保护上也有类似的问题。
泛化同意使得个人信息保护难以实现,也加大了信息收集难度。无边界的个人信息、限制信息处理、个人信息绝对保护使得数据流通受阻[72]。
(1)泛化同意。
GDPR要求信息收集需要经过“同意-授权”,但很多隐私条款非常长,大多数消费者都不会阅读。2022年的一项研究对五万份隐私协议进行了分析,发现隐私协议的平均长度从2000年的1000个单词增长到2021年的4000个单词[73]。2019年,Pew的调研发现,36%的美国用户从不阅读隐私条款,38%会偶尔阅读,13%经常阅读,9%总是阅读[74]。2023年,欧盟的调查研究发现只有36%的用户会阅读隐私条款[75]。而且,消费者也没有拒绝的权利,只能“要么接受,要么离开”(take-it-or-leave-it)。这两个方面因素使得“同意-授权”实际上更多起到形式上的保护,并不能真正保护个人隐私,反而增加了信息收集的成本。
在信息收集上,中国《个人信息保护法》也是采取了“同意-授权”模式,存在泛化同意的问题。
2022年,新华社调研5款App,用户协议和隐私政策总字数超过13万字,平均每款App需要用户“阅读并同意”的内容约2.7万字[76]。2021年,光明日报与武汉大学联合调研组对1036人进行调查访谈的结果显示,77.8%的用户在安装App时“很少或从未”阅读过隐私协议,69.69%的用户会忽略App隐私协议的更新提示[77]。2018年,中国消费者协会的调查显示,偶尔阅读和从不阅读隐私协议的用户居多,其中26.2%的用户从不阅读,31.2%的用户偶尔阅读,16.4%的用户有时阅读,8.2%的用户经常阅读,只有18.1%的用户总是阅读[78]。
(2)无边界的个人信息。
GDPR以“可识别”为标准,建立了无边界的个人信息概念。根据GDPR第四条,个人数据是指“与已识别或可识别的自然人有关的任何信息”。但是,对于什么是“可识别”,并没有清楚的定义。在大数据时代,技术的发展推动了“识别”能力的进步,以识别性为标准很难区分出个人信息与非个人信息。最终的结果就是,任何与个人有关的信息都会被归到个人信息范畴内。虽然“去标识化”、“匿名化”、“假名化”等从技术手段上可以一定程度上增加识别难度,但是并不能完全排除可识别性。乔治城大学教授Paul Ohm在2010年就指出很多匿名技术都是明显无效的,因此得出结论匿名化是关于隐私不可能履行的承诺(“Broken Promises of Privacy”)[79]。
2019年,帝国理工大学团队发表在自然杂志上的研究显示,使用机器学习进行反向工程可以轻松地将匿名化的数据再次识别。该项研究使用姓名、年龄、婚姻状况等15项特征数据就能够在匿名数据库中准确再识别出99.8%的美国人[80]。经济学招聘市场传闻(Economics Job Market Rumors,简称EJMR)是一个关于经济学学术就业市场信息的在线论坛和信息交流平台,用户在EJMR上会获得一个四字符的匿名用户名。研究发现通过仅使用公开可得的数据,找出这些匿名用户名的统计特性,就可以大概率地确定大多数用户的IP地址来源[81]。
在个人信息定义上,中国也是采取了“可识别”标准,实际上建立了无边界的个人信息标准。
中国的《个人信息保护法》规定“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”。
(3)限制信息处理。
GDPR规定处理数据需要在事前征得主体的同意,并且明确目的。GDPR对于数据处理的定义非常宽泛,使得任何与数据有关的操作都会归于数据处理,从而限制了数据处理者的自由,难以发挥出数据价值。GDPR第4条(2)款明确规定,数据处理是指“对个人数据或个人数据集执行的任何操作或一组操作,无论是否通过自动化方式执行,例如收集、记录、组织、构建、存储、改编或更改、检索、咨询、使用、通过传输、传播或以其他方式披露、排列或组合、限制、删除或销毁。”与GDPR相比,CCPA仅规定了收集(collect),出售(sell),共享(share)数据三类数据处理行为。在事后,数据主体有权限制信息处理。依据GDPR,数据主体可以通过随时撤回同意,行使移转权和删除权,防止个人信息被滥用。
信息处理上,中国《个人信息保护法》列举的处理行为虽然少于 GDPR,但同样具有宽泛性。
中国的《个人信息保护法》将处理定义为“个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。”数据流通的过程必然会涉及到数据处理,因此对于数据处理的要求越多,数据流通也会阻力越大。例如,2016年度北京市法院知识产权司法保护十大典型案例“新浪微博诉脉脉案”提出了企业获取数据应遵循“三重授权原则”:第一重授权是数据主体授权数据持有企业共享其数据;第二重授权是数据持有企业授权数据获取企业获取数据;第三重授权是数据主体对数据获取企业的授权,允许其处理、控制和使用其数据[82]。
(4)个人信息绝对保护。
GDPR将保护个人信息上升为公民基本权利,强调该权利应当得到绝对保护,在任何情形下均不能被削弱,这种做法导致欧盟的数据流通很容易违反GDPR。根据GDPR Enforcement Tracker的数据,在GDPR实施后,从2018年到2023年,欧盟累计开出近2000张罚单,罚款金额累计达到45亿欧元[83]。与欧盟相比,虽然美国FTC、司法部对Facebook、亚马逊、微软、Twitter等大科技公司就数据保护的诉讼一直没有停止,但是目前还没有成功诉讼的案例。
在个人信息绝对保护问题上,中国受理的与个人隐私相关案件数量有限,对企业的处罚较少,实际执行情况较为宽松。
根据最高人民法院的数据,中国2016年1月至2020年12月,各地人民法院受理隐私权纠纷案为1600多件[84]。2021年各地人民法院受理隐私权、个人信息保护纠纷案共计1203件,其中个人信息保护纠纷案为307件;2022年各地人民法院受理隐私权、个人信息保护纠纷案共计1491件,其中个人信息保护纠纷案为404件。
在跨境数据流通上,不同国家对个人数据保护的标准不同,数据跨境流通的边界不清,所以数据的跨境流通也充满挑战。
例如,欧美多次就数据跨境流动问题进行博弈。虽然欧美数据跨境保护框架在不断更新,但并没有从根本上解决欧美数据保护标准不一的问题。(1)2000年的《欧美安全港框架》旨在满足欧盟《数据保护指令》相关要求,美国企业向美国商务部自我认证遵守相关原则与要求,即可接收从欧盟传输来的个人数据[85]。2013年,奥地利律师Maximilian Schrems对Facebook提起投诉,认为美国法律没有确保对其个人数据进行充分保护以免受美国政府的监视活动。2015年10月,欧盟法院发布Schrems I决定,宣布安全港框架无效,认为安全港框架违反《数据保护指令》,侵犯了欧盟公民的个人数据权利。(2)2016年,《欧美隐私盾协议》达成,加强了欧盟对数据的控制。2020年7月,欧盟法院宣布隐私盾无效,认为其未能对欧盟数据主体提供“充分性”的数据隐私保护。(3)2023年,《欧美数据隐私框架》达成,通过总统签署行政令,设立独立且有约束力的双层救济机制,加强跨境流通中欧盟的数据保护。中国的数据跨境流通主要采用发布规则并逐单核准模式,这种方式有利于数据跨境流动安全,但对政府和企业来说负担较重、效率有待提升[86]。
(三)促进非公共非个人数据流通的关键在于合理界定知识产权
数据和知识产权具有非竞争性、复制成本低的相同点。
非公共非个人数据一方面是非纯公共品,具有排他性;另一方面这些数据不像个人数据会涉及人格权问题,只有财产权的划分问题。例如,个人的著作、拍摄的图片、企业的专利等,都是非公共非个人数据范畴。因此,对于非公共非个人数据,可以适用知识产权制度。
知识产权制度本质上是在平衡效率和公平。
知识产权赋予了知识产权人垄断权,因此促进了知识的创造,提升了效率。但是,知识产权限制了知识的传播,不利于公平。因此,知识产权会通过三种机制来保障公平。一是设置了保护期限。例如,中国发明专利权的保护期限为二十年,版权的保护期限通常为五十年。二是设置了权利用尽原则。知识产权所有人的知识产权产品,在第一次投放到市场后,权利人的权利即被认为用尽了。例如,在书籍卖出之后,作者不能限制书籍在二手市场上再买卖。权利用尽原则保障了买方的财产权,促进了知识的流通。三是合理使用原则。知识产权只保护特定的表达方式,而不保护其背后的思想。这个原则保障了合理引用的权利,促进了知识的再创造。知识产权的设置就是划分消费者和知识产权人之间的财产权。如果加强知识产权保护,就会缩小消费者财产权的范围;如果赋予更多的消费者财产权,知识产权人就会失去一些控制。
例如,工业数据市场流通相对不足,可以按照知识产权规则来确权促进流通。
根据《国家数据资源调查报告(2020)》,在调研的15家工业领域央企里,有13家存在企业间数据共享接口,接口数共计13406个,平均每家1031个,但这些接口中约80%为集团内部不同企业间的共享接口[87]。在现有的知识产权规则下,知识产权需要有人类的智力成果凝结,因此对于数据产品是否具有智力成果以及知识产权仍有争议。但是如果赋予数据产品以知识产权,会提升数据产品拥有人流通数据产品的意愿。
AI涉及到的第一类知识产权问题是大模型使用的数据是否侵犯了知识产权。以纽约时报诉OpenAI和微软为例,问题的关键在于知识产权如何划分。
《纽约时报》强调,OpenAI和微软的人工智能产品存在复制其大量内容的情况,超出了典型的搜索结果片段,有可能构成知识产权侵权。《纽约时报》是Common Crawl中用于训练ChatGPT的主要数据来源之一[88]。而OpenAI在回应中声称,反刍事实(regurgitate facts)是一种罕见的错误[89]。所谓“反刍”,是指AI将训练物料原封不动地“吐出来”,就像《纽约时报》所列举的那样,AI的回答和《纽约时报》的文章几乎一字不差。本案的关键在于是否适用“合理使用”原则。在“合理使用”原则下,允许在未经许可或付费的情况下有限使用受知识产权保护的材料,可以促进知识的传播。使用知识产权作品所产生的数据对人工智能进行训练是否属于合理引用?
AI仍然处于早期阶段,知识权利安排上应该向促进AI发展倾斜。
“合理使用”原则本质上是在促进人工智能创新与保护知识产权之间如何平衡,也就是在效率和公平间取得平衡。如果是为了数据流通,需要对数据所有者的权利做出适当的限制,扩大“合理使用”的范围。如果是为了加强知识产权保护,应该缩小“合理使用”的范围。“合理使用”一方面具有互补效应,促进了原作品的传播范围;另一方面有替代效应,即替代了原作品本身。科斯定理的一个含义是,如果存在交易成本,应该将权利划分给效率更高的一方手中。因此,从促进创新的角度看,适度限制知识产权,扩大合理使用的范围,对创新会更加有利。
AI涉及的另一个关于知识产权的问题是AI生成的作品是否具有知识产权。
版权制度的发展历史主要是聚焦于知识的传播。一是,新技术带来新的传播方式,进而丰富版权权利类型,无线电、互联网、移动互联网等传播技术的更迭,推动广播、信息网络传播、网络直播等新权利;二是,新技术带来新的传播载体,进而拓展版权客体种类,录音录像、数字音乐、视听动画等都是新的权利客体[90]。在生成式AI技术出现之前,相较于传播技术而言,创作技术对于版权制度的影响很小。而生成式AI的出现,使得人类在在作品中的贡献越来越小。
AI作品是否受知识产权保护主要看是否具有人类的贡献。
因为知识产权保护的是人类的权利,而不是机器的权利。因此,AI究竟是仅作为一种辅助工具,对人类的创作构思加以“映射呈现”,还是说“实质取代”了人类对作品创作元素的构思设计,是核心问题[91]。1884年,美国联邦最高法院判决的“Burrow-Giles诉Sarony”案中指出,照片是由摄像机这一机器设备而非人类直接生成的,但仍然代表了摄影师的创作构思,所以构成受版权法保护的作品[92]。所以,版权法最重要的是保护人类的创作构思,对凝结有人类思想的AI产品应给予知识产权。在美国“泰勒诉版权局案”中,完全由AI生成的内容不享有版权[93]。在国内“AI文生图案”中,需证明人类对AI生成内容的创作贡献[94]。主审法官认为,著作权法的立法目的是鼓励创作和传播。在一定条件下,给予AI生成内容作品的身份,是为了激励大家用新工具进行创作。