近年来,随着数据成为数字经济时代的核心生产要素,数据抓取行为的法律边界逐渐成为争议焦点。由于数据抓取行为在实践中广泛且普遍存在,且其抓取方式也在日益更新变化,并且在相当一部分情况下,经营者之间存在互相抓取对方数据的行为,这就意味着,今天的数据方,可能明天就是抓取方(反之亦然)。对于抓取行为本身的边界,有的经营者会采取相对容忍的态度(因为自身也存在抓取行为),有的则会采取激进的应对和反制措施,针对两者之间的界限,作为享有数据一方的Robots协议应该如何设计从而保护其针对数据的合法权益,作为抓取一方又该如何注意抓取过程中的合法边界以避免被认定违法?
此外,在数据抓取的过程中,对于公开数据的抓取,是否一定不构成违法,亦或者在何种情况下可能构成违法?这也是在理论和实践层面经常会被探讨的问题。有些经营者认为,只要是公开信息,任何抓取行为都是合法有效的,这一点在理论和实务界又该会被如何看待?
再次,在数据抓取纠纷中,司法机关对不同产品模式的竞争行为评价存在显著差异。这种差异源于互联网生态的多样性以及不同业务场景的公共利益差异。实践中作为数据权利方和抓取方又该注意哪些问题呢?
2024年12月25日,全国人民代表大会常务委员会发布了《中华人民共和国反不正当竞争法(修订草案)》(以下简称“
《反不正当竞争法(修订草案)
》
”),其中第十三条第二款第(四)项即为“数据保护”专条。结合《反不正当竞争法(修订草案)》的颁布以及即将正式生效,本文结合笔者处理数据抓取案件有关的实践经验,通过论述数据抓取的现有法律规制路径以及上述司法实践中的三大争议问题,结合《反不正当竞争法(修订草案)》,分析数据抓取领域的变化趋势及企业应对策略。
数据抓取行为作为互联网领域的重要技术手段,其合法性边界涉及多部法律法规的规制,包括《中华人民共和国反不正当竞争法》(以下简称“《反不正当竞争法》”)第二条“一般条款”、第十二条“互联网专条”、第九条商业秘密保护条款、《网络反不正当竞争暂行规定》以及《著作权法》等多部法律法规。根据我们对司法裁判案例的观察,法院多援引《反不正当竞争法》第二条以及第十二条作出裁判,其中第二条“一般条款”的适用概率明显高于第十二条“互联网专条”。
1.《反不正当竞争法》一般条款(第二条第1款和第2款)
根据《反不正当竞争法》第二条,“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。”根据《反不正当竞争法司法解释》第三条,商业道德指的是“特定商业领域普遍遵循和认可的行为规范”,法院在认定市场主体是否违反商业道德时,可参考“行业主管部门、行业协会或者自律组织制定的从业规范、技术规范、自律公约等。”实践中有法院认为,Robots协议是互联网行业公认商业道德的具体体现,也是互联网行业在生产经营活动中遵守诚信原则的具体表现。
1
2.《反不正当竞争法》互联网专条(第十二条第2款第4项)
根据《反不正当竞争法》第十二条第2款第4项,“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。”
数据抓取行为可能构成前述条款所规定的“妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为”,如数据抓取方通过技术手段规避或破坏数据持有者设置的反爬虫措施进行数据抓取,该等措施通常包括破坏网站设置的身份认证系统、用户登录系统等。
《网络反不正当竞争暂行规定》第十九条规定,“经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行,扰乱市场公平竞争秩序。”前述条款在《反不正当竞争法》互联网专条的基础上,对不当数据爬取行为构成不正当竞争行为作出了更为明确的规定。实践中,大规模、高频次地抓取数据可能导致其他经营者的服务器负载过重,妨碍其他经营者合法提供网络产品或服务。
不当数据抓取行为除了可能构成前述条款所规定的不正当竞争行为以外,还可能违反《反不正当竞争法》第九条第1款“经营者不得实施下列侵犯商业秘密的行为:(一)以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密”的规定,被认定为以“电子侵入或其他不正当授权”获取数据权利方的商业秘密。但若抓取的是公开数据,则不涉及侵犯商业秘密的不正当竞争行为。
此外,若所抓取的数据构成《中华人民共和国著作权法》所保护的作品的,数据抓取行为还可能构成著作权侵权。
违反Robots协议是否必然或较大可能构成不正当竞争?
Robots协议(全称Robots Exclusion Protocol,即爬虫协议),是指网站所有者置于网站根目录下的文本文件,告知网络爬虫软件可以/不得抓取的数据范围。随着网络爬虫和数据抓取行为在互联网生态中的广泛应用,Robots协议在数据抓取行为中的法律地位和作用逐渐成为争议焦点。Robots协议频繁被数据方采用,作为对外禁止爬虫的法律文本。一个核心问题是:违反Robots协议的抓取是否必然或较大可能构成不正当竞争行为?
当前司法实践中,法院对违反Robots协议的行为是否构成不正当竞争存在不同倾向:
(1)肯定立场
:部分判决认为违反Robots协议直接构成不正当竞争或属于判定不正当竞争的重要理由:
-
Robots协议是行业内公认商业道德和行为标准的体现
:在(2013)一中民初字第2668号案件中,法院认为Robots协议是目前国内外互联网行业普遍推行并遵守的技术规范,是行业内公认商业道德和行为标准的体现。整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。
-
Robots协议是网站自主经营权的体现
:在(2021)京民终281号案件中,法院认为Robots协议在某种意义上已经成为维系企业核心竞争力,维系市场有序竞争的一种手段。尽管Robots协议客观上可能造成对某个或某些经营者的‘歧视’,但在不损害消费者利益、不损害公共利益、不损害竞争秩序的情况下,应当允许网站经营者通过Robots协议对其他网络机器人的抓取进行限制,这是网站经营者经营自主权的一种体现。
(2)折中立场(综合判断)
:多数法院倾向于以《反不正当竞争法》第二条(诚信原则)为审查框架,结合协议合理性、数据性质、竞争秩序等因素综合判断。部分判决指出,Robots协议仅是技术规范/商业宣誓而非法律义务,
需结合行为目的和后果综合判断
,抓取行为本身是否违反了反法第二条第二款的规定。例如,(2019)川01民初5468号案中,法院认为,“即使本案中A公司设置Robots协议设置具有一定合理性,但由于互联网环境的特殊性以及互联互通的要求,因此即使本案B公司违反A公司的设置抓取其数据信息,也不当然意味着B公司的行为有不正当性,法院还需要通过评判B公司的行为本身是否违反了反法第二条第二款的规定,来最终予以判定。”又如,(2021)京民终281号,法院认为,“对于网站经营者通过Robots协议限制其他网站网络机器人抓取的行为,不应作为一种互联网经营模式进行绝对化的合法性判断,而应结合Robots协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景、Robots协议的设置对其他经营者、消费者以及竞争秩序的影响等多种因素进行综合判断。
(3)否定立场
:一些法院出于公共利益的考量,认为区别对待的Robots协议,有违公平竞争原则。(2017)京民终487号案件中,法院认为,设定区别对待的Robots协议与互联网发展普遍遵循的开放、平等、协作、分享原则不符,若任由其发展,可能导致同行业经营者的效仿,将使原本遵循互联、互通、共享、开放精神的互联网变成信息相互隔绝、无法自由流动的信息“孤岛”,将有碍互联网功能的正常发挥,对互联网竞争秩序造成破坏,从而有损社会公共利益。
基于上述,尽管我们认为有必要对Robots协议是否正当、合理进行判断,但我们也关注到虽然违反Robots协议不等同于构成不正当竞争,但不少法院仍倾向于将违反Robots协议视为不正当竞争的判断因素,即使设置Robots协议本身具有不正当性、不合理性,也可能影响违反Robots协议爬取数据行为的正当性判断。因此,从主流司法实践看,违反Robots协议仍对案件的走向会有较大负面影响。
从Robots协议设置的原理来看,其本质上是一种技术约定,其内容由数据方单方设定,用于向爬虫程序表达其资源抓取的偏好或限制。我们认为,不宜机械认定违反Robots协议即构成不正当竞争,也不宜将其作为过于核心的判断因素,需要考虑Robots协议制定的合理性、数据本身的性质等因素进行判断。由于经营者之间存在互相抓取对方数据的行为,这就意味着数据权利方和抓取方可能会存在角色互换的可能。在实际的数据抓取过程中,针对Robots协议本身,数据权利方和抓取方站在各自立场应当注意以下问题:
数据权利方
(1)制定范围合理的Robots协议:例如,仅禁止恶意爬虫抓取核心数据(如涉及核心商业模式、竞争利益、用户隐私信息)的Robots协议更易被认可,而全面禁止抓取全部网页信息的协议可能反而涉嫌过度保护从而被质疑其合理性。因此,数据权利方应制定范围合理的Robots协议以区分核心数据与公开数据,而非“一刀切”地将网站全部信息都设定为禁止抓取(此等设定可能反而对自身不利);
(2)公开/保留合理性依据:可通过适当的方式(例如通过白皮书等方式)说明Robots协议的合理性理由。另外,企业内部设定Robots协议时,如有关于合理性论证的记录,也建议保留;
(3)数据公共属性:若涉及公共数据,例如天气预报、政府公开信息等公共数据,即便Robots协议禁止抓取,抓取方仍可能基于公共利益主张合法性。但是,也要注意该等抓取行为是否出于公共利益考虑还是用于商业用途。
数据抓取方
(1)优先遵守协议:在进行抓取行为之前,爬虫程序应核查目标网站的Robots协议内容。在多数情况下,应优先尊重和遵守Robots协议,避免潜在法律风险;
(2)特殊情形个案考察:若存在前文提及的特殊情形(数据具有公共属性、协议不合理)等,建议在抓取前也先进行相关领域的案例研判以及法律论证,了解行业实践的整体情况及相对合规的操作方式;
(3)实践中,数据抓取方往往会通过第三方(或其关联公司)进行数据抓取,目的是为了降低自身风险,但是,第三方和数据抓取方仍然不能避免进行抓取数据之间提供和交付,抓取方应特别注意和第三方之间的数据抓取协议、数据提供协议的条款起草和准备,从而降低风险。
司法实践中,法院通常不会直接认可被告方提出的“抓取公开数据”抗辩,而是基于公开数据的属性、“实质性替代”原则、是否对网站运营发生负面影响等判断是否构成不正当竞争。事实上,
大量案例中,被告抓取的均是原告/用户已公开数据,但法院仍认定构成侵权
,法院的理由也各不相同。举例而言:
购物网站商品信息;被告抓取该等信息并可实现于另一平台上架的功能
本案涉案软件运用技术实施商品
复制和搬运的行为并不构成创新性竞争
,其主观上明显具有侵权意图,客观上未获得商家、平台的合法授权,采用突破淘某软件公司、A平台技术措施的手段,其运用技术系用于实施侵权。
损害了A平台基于商品数据积累所建立的经营优势
。
平台UP主粉丝数、关注数,UP主作品播放数、点赞数等;将涉案数据汇总后提供给网络用户
对于A公司在A平台提供无差别对待的公开数据,基于互联互通、信息共享的互联网本质,A公司对于他人的正常处理和竞争行为负有容忍义务,但其他经营者如以违反商业道德等方式获取和使用相关数据,扰乱市场正常竞争秩序,实质性
妨碍某某A公司相关网络服务正常运行的
,对该行为仍应给予否定评价。
尽管该些信息已经在B平台公开,但是
个人信息主体对信息传播控制的权益
显然高于平台或经营主体基于已合法公开的个人信息流通利用所产生的财产权益。
平台用户博文;抓取数据,为终端客户提供舆情监测服务
在不通过
技术手段破坏
或者绕开A公司所作的技术限制的情况下,无法实现B公司所宣称的XX系统所具有的功能。
此类信息经过人工收集、整合,并作为后台数据可供软件用户进行查询后,就能凭借其药品种类的多样性、获得方式的便捷性,而使得该软件具有竞争优势,故
原告软件中的药品说明书数据库能为原告带来现实或潜在的市场利益
。被告的行为侵害了原告对此享有的经济利益及市场竞争优势,构成不正当竞争。
首先,公开数据不涉及商业秘密问题,因此不会涉及商业秘密侵权,也不存在抓取商业秘密场景下的直接“不当性”。并且,由于数据本身就可以公开获取,在判断其正当性时法院可能会更多考量其他因素。
如前述司法实践总结,大量案例中,被告抓取的均是原告/用户已公开数据,但法院仍认定构成侵权,我们认为核心主要是:
(1)是否出现了“实质性替代”,例如功能同质化、市场分流显著(如,某点评网站和搜索引擎之间的不正当竞争诉讼案);(2)是否存在重大利益失衡,例如原平台投入高额成本、长期经营收集数据,但抓取平台仅需低成本就可以大量复制利用(如,某电商平台和某信息科技公司的不正当竞争诉讼案);(3)技术手段的正当性,例如抓取手段明显超出合理限度(如每秒千次请求干扰服务器正常运行)、采取破解算法抓取数据等方式
。
数据权利方
(1)部署流量监测系统,记录、保留异常访问IP、请求频率等关键日志信息,研判异常访问IP对应的抓取主体;
(2)对核心公开数据(如用户评价)设置分层防护,如采取验证码验证等措施(实践中是否设置相关防护措施也可能被视作为该等信息是否存在经济利益的判断标准之一);
(3)明示数据使用规则:Robots协议约定禁止抓取范围,将重点数据纳入;在网站声明或用户协议中明确禁止特定类型的抓取或商业利用行为。
数据抓取方
(1)不应当然认为公开数据不构成违法,需要根据个案评估产品合规性;
(2)检测“替代性风险”,例如是否直接复现原平台核心功能(如直接展示用户评论)、是否抽离原平台主要流量入口(如绕过广告页面直接跳转);
(3)收益模式的合法性设计:若基于公开数据开发增值服务(如数据分析报告),需确保数据加工深度(如跨平台聚合分析)足以形成独立性;避免直接对抓取数据收费,而是通过衍生服务(如可视化工具)实现盈利;
(4)技术手段的合理性:控制抓取频率,不强行突破原网站的反爬措施。结合笔者处理的数据抓取类案件,须特别注意的是,实践中存在采取非法手段抓取数据从而被认定构成刑事责任的先例,
典型罪名为刑法项下的“非法控制计算机信息系统罪”或“非法侵入计算机信息系统罪”
。
不同类型产品模式的不正当竞争评估方式是否应有差异?
在数据抓取纠纷中,司法机关对不同产品模式的竞争行为评价存在显著差异。这种差异源于互联网生态的多样性以及不同业务场景的公共利益差异。
从司法案例来看,法院对不同产品模式的抓取行为容忍度存在差异,具体可通过下表对比呈现(注:宽容度等级仅是相对而言其他产品类型的评价,且不同法院的认定倾向存在差异,仅供参考):
搜索引擎爬取一般公开网络信息不侵权但通知后应采取措施
Robots协议不得区别对待不同经营者
搜索引擎具有信息整合的公共属性,需平衡数据流通与来源方利益
(2019)京0491民初10989号
(2017)京民终487号
抓取就业数据造成数据获取方付费收益受损,抓取行为直接替代了抓取对象的市场功能,构成不正当竞争。