来源:马军、李嘉英
前言
近日,上海秘塔网络科技有限公司(以下简称“秘塔”)发表声明称其收到《中国学术期刊(光盘版)》电子杂志社有限公司(即知网,以下简称“知网”)的告知函。知网认为秘塔未经许可向用户提供知网数量巨大的学术文献题录及摘要数据,严重侵权,要求秘塔立即停止侵权行为并断开链接。秘塔对此表示后续将不再收录知网数据,转而收录其他中英文权威知识库数据。事实上,秘塔和知网的争议仅仅是大模型搜索合规的冰山一角,本团队结合自身服务大模型企业客户的经验和检索相关资料,梳理了AI搜索的运作原理,从反不正当竞争和著作权两个视角出发展开AI搜索的合规风险识别,并给出相应合规建议。
(一)AI搜索运作原理
厘清AI搜索运作原理是AI搜索产品合规风险识别的前提。
AI搜索运作通常由用户界面和后台搜索过程两部分构成。用户在用户界面提出问题,这是整个AI搜索流程的起点。在后台搜索过程中,问题作为搜索语句(query)输入AI模型进行问题改写,输出增强query。通过自然语言处理(NLP,Natural Language Processing)分词得到关键词(keywords)。关键词作为索引目标,在索引数据来源中进行索引(index),便得到初始信息(original information)后,通过相关度排序(rank)与AI模型进一步排序(rerank)或直接使用AI模型进行排序(rank)得到排序后信息(ranked information)。将排序后信息作为搜索结果(results)输入AI模型进行总结,总结得出的答案与链接组合向用户界面输出。用户接收到答案与链接后,一次完整的AI搜索流程便完成,具体如图1所示:
图1:AI搜索运作原理示意图
(二)AI搜索产品模式
根据AI搜索原理与产品实际,目前的AI搜索产品模式主要因索引数据来源的不同而得到区分:调用传统搜索引擎索引数据库API作为索引数据来源,使用爬虫手段通过传统搜索引擎的URL获取数据作为索引数据来源,自建索引数据库作为索引数据来源。
以上三种索引数据来源可单一使用,亦可组合使用。调用传统搜索引擎索引数据库API是最为便捷的索引数据来源,但一般而言,传统搜索引擎提供索引数据库API接口需要付费,甚至有的搜索引擎并不对外提供API接口,因此对于部分小型AI搜索产品而言调用API接口并不现实,故可能选择使用爬虫手段通过传统搜索引擎的URL获取数据作为替代办法。具有传统搜索引擎背景的AI搜索产品,则以自建索引数据库作为索引数据来源,如360推出的360 AI搜索,Bing推出的NewBing等。也有部分AI搜索产品会综合使用三种索引数据来源,如OpenAI推出的SearchGPT、Perplexity、秘塔AI、天工AI等。
1.调用传统搜索引擎索引数据库API作为索引数据来源
AI搜索调用传统搜索引擎索引数据库API,首先对用户输入的搜索语句(query)交由AI模型改写得到增强query,并经NLP分词处理后得到关键词(keywords)。调用API的过程即是将关键词输入传统搜索引擎的索引数据库进行索引并得到输入结果作为初始信息(original information)。
图2:调用传统搜索引擎索引数据库API原理示意图
2.使用爬虫手段通过传统搜索引擎的URL获取数据作为索引数据来源
AI模型使用爬虫手段通过传统搜索引擎的URL获取数据,首先需要对增强query进行NLP分词处理得到的关键词(keywords),通过URL定位至传统搜索引擎的与该关键词相对应的结果网页,再通过HTTP库发送请求获取该网页的页面源代码(即该网页的HTML文档),最后通过HTML解析库对页面源代码进行解析得到初始信息(original information)。
图3:使用爬虫手段通过传统搜索引擎的URL获取数据原理示意图
3.自建索引数据库作为索引数据来源
AI搜索自建索引数据库,主要使用爬虫手段对目标网页群进行遍历,并将爬取的数据存储,通过数据库技术处理建立本地化的索引数据库。爬虫手段的技术实现,首先以某一个选定URL作为起点定位网页,通过HTTP库发送请求获取页面源代码(即该网页的HTML文档),再使用HTML解析库对页面源代码进行解析得到网页数据并本地化存储,该网页的爬取即完成。最后按照爬取目标网页群的特点,通过对URL设置递归重复即可实现自动化地数据爬取。
(一)调用传统搜索引擎索引数据库API的合规风险
调用传统搜索引擎的索引数据库的API接口,发送请求信息后,接收返回的搜索结果是最为便捷的索引数据获取方式。未经许可调用API接口,或超过许可范围使用API接口,例如通过API接口获取后台数据、使用API接口搭建镜像网站或山寨网站等,均属于“商业利益搭便车”,构成不正当竞争。认定该行为正当性的法律依据,包括《中华人民共和国反不正当竞争法》(以下简称“《反不正当竞争法》”)第十二条“互联网专条”兜底条款、《网络反不正当竞争暂行规定》(以下简称“《暂行规定》”)第十九条和第二十六条,以及《反不正当竞争法》第二条不正当竞争一般条款。
《反不正当竞争法》第十二条“互联网专条”通过类型化条款+兜底条款的方式对互联网不正当竞争行为进行规制。其中涉及的类型化条款包括“强制跳转”“二选一”“恶意不兼容”三类,未经许可调用API接口或超过许可范围使用API接口并非其中的类型化条款之一,所以应当归属于兜底条款调整。国家市场监督管理总局颁布的《暂行规定》于2024年9月1日起施行。《暂行规定》系对《反不正当竞争法》“互联网专条”中对于互联网不正当竞争行为规制的细化与补充。需要强调的是,由于《暂行规定》系部门规章,法律效力阶层较低,部门规章在司法审判中的效力通常不被视为直接的法律依据,而是被参考以作为法律、行政法规的补充或解释。因此,涉及相关司法争议的,应当以《反不正当竞争法》第十二条作为直接法律依据,以《暂行规定》作为补充,从而更为有效实现权益保护。《暂行规定》第十九条“非法获取、使用数据”条款包括以下构成要件:A.利用技术手段;B.非法获取、使用其他经营者合法持有的数据;C.妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行;D.扰乱市场公平竞争秩序。结合以上要件,进行以下分析:
要件A:
利用技术手段,包括通过API接口获取后台数据、通过爬虫机器人访问URL等技术方式。
要件B:
非法获取、使用其他经营者合法持有的数据。对要件B进一步分解:
a.“数据”,
是指任何以电子或者其他方式对信息的记录。
b.“合法持有”,
可借鉴“数据资源持有权”之定义,是指其他经营者通过合法途径获取数据,使数据处于其控制之下,同时可排除他人对该控制状态的侵害。
c.“非法获取
、使用”
可进一步分解为“非法获取”与“非法使用”。其中,“非法获取”是指数据来源不合规。数据来源一般可分为三个渠道:公共数据开放或授权、系统生成、交易市场采购。每个渠道的数据来源均有相应数据合规方案。如未能实现相应的数据来源合规,则可能涉及“非法获取”。“非法使用”,则可借鉴“数据加工使用权”项下“数据使用权”之定义。所谓“数据使用权”,是指基于数据共享、数据交易等方式,数据需求方(权利人)对合法获取的数据资源或数据产品在法定或合同约定范围内进行使用的权利。则“非法使用”是指对未合法获取的数据资源或数据产品在超过法定或合同约定范围内进行使用。
要件C.
妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行。对于该要件的判断,《暂行规定》第二十六条规定了判定因素,可直接适用。
要件D
.扰乱市场公平竞争秩序。竞争秩序的利益基础是“公共利益”,其中包括信息透明度、企业创新等等,从而促进整体利益的提升。在对竞争秩序进行判定时,则应采取功能化的视角,以竞争是否能发生优胜劣汰的筛选功能作为判断竞争秩序健康与否的标准。
未经许可调用API接口,或超过许可范围使用API接口,是否符合《暂行规定》第十九条规定的情形,重点在于要件C(妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行)的认定。结合《暂行规定》第二十六条的判定因素来看,案涉行为如该当于要件C,需妨碍、破坏其他经营者达到一定程度,且举证要求较高,认定难度较大,但并不代表未经许可调用API接口,或超过许可范围使用API接口行为当然具备正当性,因其还受到《反不正当竞争法》第二条不正当竞争一般条款的调整。
根据《反不正当竞争法》第二条之规定,不正当竞争行为是违反自愿、平等、公平、诚信的原则、违背法律和商业道德、扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。判断行为正当与否的关键在于商业道德的认定;对于商业道德的判断,则要采取市场竞争秩序、其他经营者权益和消费者权益的多元利益均衡的判断路径。于其他经营者权益而言,传统搜索引擎为搭建索引数据库付出了不菲的人力物力财力:搭建一个搜索引擎索引数据库至少要爬取1000亿的网页,至少要付出20亿-40亿元的成本预算。传统搜索引擎付出巨额成本搭建索引数据库后,除开发自有搜索产品外,也会有对外收费提供API接口的商业模式,因此,第三方合规调用API接口是传统搜索引擎应当受到法律保护的商业利益。而未经许可调用API接口,或超过许可范围使用API接口,属于“不劳而获”,严重侵犯其他经营者的合法权益。于消费者权益而言,虽然可以暂时地丰富搜索市场供给、增加消费者选择,但从长远来看,未经许可调用API接口,或超过许可范围使用API接口会使真正付出努力的索引数据库搭建者的收益受损,在其搭建及维护索引数据库的预期利益受损时,会影响其为搭建及维护索引数据库付出更多努力,这将会使消费者获得的搜索服务质量受损,这对于消费者权益是弊大于利的。于市场竞争秩序而言,《反不正当竞争法》保护的是竞争,在对竞争秩序进行判定时,应采取功能化的视角,以竞争是否能发生优胜劣汰的筛选功能作为判断竞争秩序健康与否的标准。在搜索产品的市场竞争中,AI搜索对比传统搜索具有技术上的优势,而传统搜索则具有数据、资本等优势,且同时传统搜索也在进行AI能力升级,技术优势的天平也会逐渐回平,因此传统搜索引擎具备多种意义上的“优”。未经许可调用API接口,或超过许可范围使用API接口,将阻碍“优”的胜出,有损竞争秩序的健康发展。
(二)使用爬虫手段通过传统搜索引擎的URL获取数据的合规风险
使用爬虫手段,向传统搜索引擎的URL发送查询词,得到搜索结果是AI搜索产品获取索引数据的另一重要方式。从“技术中立”的角度出发,数据爬取本身并非违法,其中所蕴含的自由流通理念不仅是互联网所赖以存在之根基,更是在《中华人民共和国数据安全法》(以下简称“《数据安全法》”)第七条中得到明确宣示:“保障数据依法有序自由流动”。因此,所谓使用爬虫手段本身并不当然违法,重点在于是否突破正当性边界,当爬虫行为突破正当性边界时,便构成不正当竞争。爬虫行为构成不正当竞争的法律依据,包括
《反不正当竞争法》第十二条“互联网专条”兜底条款、《暂行规定》第十九条和第二十六条,以及《反不正当竞争法》第二条不正当竞争一般条款。
常见的使用爬虫手段突破正当性边界的行为可能包括:1)违反Robots协议或暴力突破技术屏障,即“暴力爬虫”;2)超量过度访问挤占被爬网站服务器通路;3)抓取包括用户个人信息在内的后台数据。所谓Robots协议,并非法律意义上的经意思表示合意达成的协议,实质上是网站单方的是否允许或禁止爬虫的宣示,并不形成法律意义上的权利义务关系,但在业内属于通行共识。司法实践中,违反Robots协议作为行业惯例,确是判断爬虫行为正当性的重要参考标准。对于爬虫行为正当性认定的法律争议,一般应当以《反不正当竞争法》第十二条作为直接法律依据,以《暂行规定》作为补充根据。《暂行规定》第十九条之规定,使用爬虫手段违反该条之规定,重难点在于要件C.妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行的认定,《暂行规定》第二十六条所规定的判定因素之重点,则其实重点在于上述行为3)超量过度访问挤占被爬网站服务器通路。且由于爬虫通常都会导致超量过度访问,第二十六条的判定因素涵盖范围、认定标准之广泛,几乎堵死了所有的暴力爬虫行为。行为3)则可能涉及隐私侵权,需要结合《中华人民共和国网络安全法》(以下简称“《网络安全法》”)《数据安全法》《中华人民共和国个人信息保护法》(以下简称“《个人信息保护法》”)及相关法规具体认定,此处不再赘述。
在爬虫行为妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行未达到《暂行条例》第二十六条规定的判定程度时,则考虑适用《反不正当竞争法》第二条不正当竞争一般条款进行规制。关于一般条款的适用问题,涉及对于商业道德的认定,由于诸多法院生效判决采用行业惯例、行业公约等作为特定行业内商业道德的认定标准,故暴力爬虫手段,由于违反行业惯例则极有可能被直接认定为不正当竞争行为。对于商业道德认定过程中的多元利益均衡,可参考上述“调用传统搜索引擎索引数据库API的合规风险”中的相关论证。
(三)自建索引数据库的合规风险
通常,自建索引库作为索引数据来源的关键,是爬虫行为的合规,具体论述可参见上述“使用爬虫手段通过传统搜索引擎的URL获取数据的合规风险”中对于爬虫行为正当性的论述。
部分AI搜索产品是传统搜索引擎为适应AI搜索能力升级推出的改进产品。这类产品与其他产品需要完全新建索引数据库不同的是其多在原有索引数据库的基础上进行升级。如360便建立了一个规模达到100亿的多模态RAG索引库。这个新的索引库是专为大型AI模型设计的,实现了AI原生的索引架构,采用了最新的RAG技术理念,重新构建了信息提取的技术方案。传统搜索引擎的自建索引数据库除采用爬虫技术外,还以引流推荐等网站推广为对价,吸引网站管理者主动上传链接和数据。这种网站链接和数据的获取,可以理解为传统搜索引擎获得网站的API接口接入许可。传统搜索引擎在布局AI能力升级时,需要在网站管理者主动上传链接和数据时,告知其网站链接和数据被用于AI搜索产品的目的与情况。如其未告知网站管理者链接和数据将被用于AI搜索产品,则有可能属于超过许可范围使用API接口,根据《反不正当竞争法》第十二条“互联网专条”兜底条款、《暂行规定》第十九条和第二十六条,以及《反不正当竞争法》第二条不正当竞争一般条款,构成不正当竞争。具体合规风险识别,参照上述“调用传统搜索引擎索引数据库API的合规风险”中“未经许可调用API接口或超过许可范围使用API接口”合规风险识别的论述。
部分AI搜索产品是内容服务商的内置AI搜索。对于该类产品而言,其索引数据库的建立并非依靠爬虫手段。这类产品的主要搜索对象为该内容服务商控制的数据内容,这些数据内容主要有两种原始来源:一种为用户上传,另一种则为著作权使用授权许可取得。对于用户上传的内容,主要的合规风险在于是否获得用户数据的使用同意。根据《个人信息保护法》第十三条规定,使用个人信息需要取得个人同意或满足相关同意豁免要件。对于著作权使用授权许可取得的内容,主要的合规风险在于著作权授权使用许可的取得。关于著作权使用授权许可取得的具体论述,参见后文“使用AI模型总结生成答案的合规风险”。
(一)爬虫行为侵犯网页著作权的合规风险
爬虫行为需要获取网页的页面源代码(即HTML文档),这是否侵犯网页的著作权?从技术层面来讲,HTML文档是网页的本体,用户看到的页面是浏览器对HTML文档运行的结果。网站网页通常会涉及文字、图像、音乐、动画、界面(版式设计、布局编排)以及网页源程序等多个构成元素,具有很强的视觉艺术效果。由于网页的电子数据载体形式以及内容组成元素的丰富多样,因此不能将其归入《中华人民共和国著作权法》(以下简称“《著作权法》”)第3条规定的具体作品类别。关于网页作品的属性存在“计算机软件作品说”“汇编作品说”“多媒体视听作品说”等多种观点。但无论采取何种属性观点,网页著作权保护的均是网页构成要素的独创性选择或编排。通过HTML文档获取的网页中的文字、图片、视频等数据,并不是网页著作权的保护客体。因此爬虫行为获取网页的页面源代码(即HTML文档)的行为,并不侵犯网页的著作权。但是如果网页中的文字、图片、视频本身构成作品,是作品的电子化形式,对于这些电子化作品的复制、传播等行为,便可能构成著作权侵权,具体论述参见下文。
(二)使用AI模型总结生成答案的合规风险
1.答案可能侵犯复制权
部分AI搜索产品在答案中大幅复制来源于某一文献数据库的作品的正文内容,该复制行为便侵犯文献作品复制权。上述作品通常由文献数据库平台获得复制权转授权,文献数据库平台可据此向AI厂商主张权利。
部分AI搜索产品在答案中向用户直接提供作品的摘要,同样是对文献作品复制权的侵犯。根据最高人民法院曾在计算机软件侵权案件审理中对“部分复制”作出的相关厘定,通常情况下,文章摘要在整个作品中实现相对独立的功能,属于独创性表达,应当被视为文献作品中的一部分,对摘要的复制即为对作品的部分复制。
2.答案可能侵犯保护作品完整权
由于人工智能神经学习及黑箱处理具有一定程度上的“自主性”,其对输入内容处理并转化为输出内容时存在一定的不准确性。AI搜索产品的答案可能涉及对文献作品的错误理解与改动,从而损害作品或作者声誉,构成侵犯保护作品完整权7。作品作者可据此向AI厂商主张权利。
3.答案可能侵犯信息网络传播权
部分AI搜索产品在答案中向用户直接提供源自某一文献数据库中的作品全文的PDF格式或word格式的文件供其浏览或下载,亦或是在回答中直接大幅复制上述作品的正文内容或摘要内容,可能侵犯该文献数据库平台的信息网络传播权。作品的信息网络传播权由文献数据库平台通过转授权获得,该权利的主要内容即为“数据库平台提供——用户获得”。根据《信息网络传播权纠纷司法解释》第三条的规定,AI厂商在未获许可的情况下,提供作品全文,构成侵犯信息网络传播权。