2024年11月21日,“上海高院”公众号发表了一篇《
抓取公开产品信息,爬虫程序“爬一爬”?
》的贴文,报道上海市普陀区人民法院(以下简称普陀区人民法院)审理了上海首例认定提供爬虫程序抓取公开数据构成提供侵入计算机信息系统程序罪案件。在该案件中,法院认为“爬虫技术的使用并非没有界限,即使是公开数据,擅自使用爬虫技术不当抓取也可能违法甚至涉嫌犯罪。”那么,什么叫“擅自使用爬虫技术不当抓取数据”,在什么情况下使用爬虫技术抓取公开数据属于违法行为,甚至构成犯罪?
被控侵权软件是,一款能破解“某物”APP防护措施、自动抓取商品数据的爬虫程序,爬虫程序通过破解API加密算法、批量获取设备身份指纹SK等技术方法绕过防护机制,无需授权即可获取服务器数据。被控犯罪行为是,“某物”在APP的用户协议及Robots协议中均明确宣示禁止任何数据抓取行为,并采取了签名认证、图形验证、设备指纹、代码混淆加固等防护措施。被告人无视系统警示、未经授权许可,向他人提供爬虫程序破解防护机制,获取系统数据。被告人在微信朋友圈、博客等平台发布介绍贴并售卖这款爬虫程序,短短两年间,共计获利60余万元。法院认为,被告人王某明知其开发的爬虫程序及接口具有破解APP安全保护措施并获取商品数据的功能,仍通过网络向他人售卖并提供维护服务等,经审计违法所得60余万元,已属于法律规定的提供“专门用于侵入计算机信息系统的程序”的行为,而非单纯的技术行为,其行为已构成提供侵入计算机信息系统程序罪,且情节特别严重,依法应予处罚。鉴于王某具有坦白、认罪认罚、退赃等情节,最终判处其有期徒刑三年,缓刑三年,并处罚金人民币八万元。案件宣判后,被告人未上诉,公诉机关未抗诉,案件已发生法律效力。
本案承办法官在释法时认为,如未经授权爬取受保护的数据、破解验证码、绕过防火墙等可能构成非法获取计算机信息系统数据罪;利用爬虫对目标网站或系统发起大量请求,导致系统负载过高甚至崩溃可能构成破坏计算机信息系统罪;抓取包含个人信息的数据用于商业目的,可能构成侵犯公民个人信息罪;爬取企业内部数据库、竞争对手网站上的敏感数据可能构成侵犯商业秘密罪。公开数据的访问和抓取在行为对象、行为内容和行为目的上均存在本质差异,二者不可混为一谈。一般来说,访问公开数据是指用户是以消费为目的访问企业在客户端以文字、图片、视频等形式展现的商品信息;而爬虫抓取的是数据分析者在系统后台以计算机语言编辑、传输的加密代码,用以价格监控、行为分析、趋势预测等,超出了公开数据合理使用的限度。本案中,涉案商品信息在“得物”APP客户端可以正常浏览,但上述信息数据在APP后台所对应的代码进行了加密保护,并设置了多种反爬虫措施。被告人开发的爬虫软件通过技术手段,绕过“得物”APP的防护机制,获取“得物”APP服务器数据,属于违法的“侵入性”访问,侵害了企业的数据安全,损害了企业的合法权益。
结合美国和欧盟的法律规定,可以从多个方面评价上海这起非法爬取公开数据案件。
中国强调“公开数据”的合理使用限度,如本案中的爬虫程序绕过加密和验证措施获取数据,被认定为侵入性行为。而在美国,公开数据通常具有更宽松的使用边界。中国法律更强调平台数据安全和系统防护权利。即使数据表面上是公开的,若通过技术手段规避平台限制,可能构成非法行为。美国对数据抓取和爬虫行为的法律评价主要基于《计算机欺诈与滥用法》(Computer Fraud and Abuse Act, CFAA)。该法案将未经授权访问受保护的计算机系统视为违法行为。美国法院更加重视数据利用的创新价值,并希望避免数据垄断。同时,法院要求平台提供明确的法律依据来限制公开数据的访问,而非仅依赖技术措施或协议声明。美国第九巡回法院在 LinkedIn v. hiQ Labs 案中的核心观点是:无视 Robots.txt 协议和绕过技术屏障爬取公开数据,不必然构成违法行为。法院明确支持 hiQ 的行为,认为公开数据应更广泛地被利用。这与中国法院在类似案件中的严苛态度形成鲜明对比,也反映了不同法律体系下对数据权利保护和创新激励的侧重点差异。
在美国法律中,Robots.txt 协议和 LinkedIn 的技术防护措施并未直接决定是否违反《计算机欺诈与滥用法》(CFAA)。法院强调,公开数据的访问不能因技术防护或声明限制的存在而被简单认定为非法。尽管绕过技术措施在某些情况下可能被视为“未经授权访问”,但在
LinkedIn v. hiQ Labs 案
中,由于抓取的数据本质上是公开的,技术措施的存在并未改变其公开性质,因此也不足以将这些数据重新定义为“受保护数据”。绕过技术措施本身并不会直接改变数据的公开属性。此外,Robots.txt 协议在美国被认为是非强制性的技术声明,缺乏法律效力。即使爬虫程序无视该协议并绕过技术屏障,法院也未将此视为非法行为。在本案中,hiQ 抓取的是 LinkedIn 用户公开共享的信息,因此不存在“未经授权访问”的问题。法院进一步指出,公开数据通常具有较广的访问权限,法律更倾向于保护数据使用者的权利,尤其是在阻止数据爬取可能削弱市场竞争和技术创新的情况下。综合考虑隐私保护与平台控制权的平衡需求,法院认定 hiQ 的行为不构成 CFAA 规定的违法访问。
欧盟在数据保护和网络犯罪方面主要依据《通用数据保护条例》(GDPR)和《网络犯罪指令》(Directive on Attacks against Information Systems, 2013)。根据 GDPR 的规定,只有在被爬取的数据中包含个人信息时,才会触发相关要求。本案中,爬虫程序抓取的是“得物”APP 的商品信息(如商品价格、商品描述等),这些数据本质上属于企业的公开信息,不涉及可识别用户身份的个人数据,因此不触发 GDPR 的适用性。GDPR 第4条明确将个人信息定义为与已识别或可识别的自然人相关的信息,例如姓名、联系方式、位置数据、用户行为数据、偏好等。本案中抓取的商品数据(如价格、库存)通常不被视为与自然人相关的信息,未构成个人数据的范畴。而对于用户行为数据,例如用户的购买记录、浏览历史等,若爬取行为涉及这些内容,则抓取者必须符合 GDPR 第6条规定的合法性基础,如获得数据主体的明确同意。此外,若爬取行为绕过平台安全防护措施以获取用户账户信息或身份认证数据,也可能同时触发 GDPR 和其他网络安全法规。
公开数据的使用界限在美欧法律中体现出明显差异。美国法院在解释《计算机欺诈与滥用法》(CFAA)时,通常更关注访问权限(Authorization)而非诚信原则,而欧盟则在多个案例中明确指出,公开数据的使用并非完全不受限制。欧盟强调,绕过技术防护措施抓取数据可能违反“诚信原则”,并被视为非法处理行为。若抓取行为超出合理预期,例如批量爬取或用于商业竞争目的,可能构成对数据控制者合法权益的侵犯,甚至违背“数据最小化”原则。在
SAS Institute v. World Programming Ltd.
等相关案例中,欧盟法院强调,公开数据的使用必须尊重数据控制者的意图和规则。即使数据可以被公开获取,未经授权的系统性抓取仍可能被认定为违法。在该案中,尽管更多涉及软件功能,但其对公开信息的分析和模仿的认可,奠定了公开数据合理使用的法律基础。欧盟强调这种使用必须尊重数据控制者的合理预期和规则。如果数据或软件功能是公开的,且使用者在合法获取的范围内分析或模仿其行为,通常不构成违法。使用公开数据必须符合数据控制者的合理预期(如用户协议或技术限制),超出合理范围的批量爬取或不当商业利用可能构成侵权。合理预期的界定是一个综合性判断,取决于用户协议的约定、技术措施的限制、行业和法律框架的规定以及具体使用场景。使用公开数据时,行为人应尽量避免违反明确的用户协议、绕过技术措施或对控制者造成实际损害,以免被认定为超出合理预期。如果数据是完全公开的(如无需登录或认证即可访问),且数据控制者未施加任何技术限制(如 Robots.txt 协议或 API 限制),则爬取行为可能被认定为合法。如果爬取的数据用于非商业目的(如学术研究、教育或公益项目),且行为人遵守数据最小化原则和控制者规定,爬取行为可能被视为符合诚信原则。如果数据控制者通过协议或合作明确授权,允许一定范围内的数据爬取,则这种行为显然合法。通过官方提供的 API 接口访问和提取数据,只要遵守 API 的使用规则和限额,通常不会被视为非法。此外,欧盟法律支持为实现系统兼容性而进行的技术分析和数据爬取行为,例如在
SAS Institute v. World Programming Ltd.
案中,法院裁定研究软件功能以实现兼容性开发是合法的。总之,在符合诚信原则、数据最小化原则和合理使用范围的情况下,爬取数据依然可能被视为合法。
根据欧盟《网络犯罪指令》(Directive 2013/40/EU)第4条规定,获取数据(Illegal interception or acquisition of data)必须基于授权,绕过技术防护措施抓取数据的行为属于非法获取。指令特别指出,若行为人通过绕过技术措施获取系统内部数据,可能构成非法访问或数据篡改。在欧盟法律框架中,技术防护措施被视为定义系统“受保护性”的核心标准。正如指令前言所述:“技术防护措施是一种受保护的声明,旨在限制未经授权的访问或使用行为。故意规避这些防护措施以进入信息系统或获取数据,应被视为非法行为。”相比美国法律对数据开放性的侧重,欧盟更倾向于保护系统控制者的权利,认为绕过技术防护措施的行为不仅侵犯了数据控制者的合法权益,更对信息系统的安全构成直接威胁。从欧盟法律的角度看,本案中的行为已触发了“未经授权访问”的网络犯罪要件。即使抓取的是公开数据,行为人通过技术手段绕过多重防护措施的行为应被认定为“侵入性访问”。此外,行为人售卖破解程序的行为在欧盟法律中可能进一步加重责任,因为提供用于非法访问的工具本身就构成独立犯罪。这一点与中国刑法第二百八十五条的规定相似。综上,欧盟法律对本案行为的规制更倾向于通过保护技术防护措施来维护系统控制者的权利。
本案中,上海法院的判决突出强调了技术防护措施在确定数据权属和访问权限中的核心作用,同时明确了公开数据与受保护数据之间的界限。判决认为,爬虫抓取行为具有侵入性本质,不仅侵犯了系统的技术保护,还对数据控制者的合法权益构成实质性损害。结合中、美、欧三方法律框架来看,针对被告提供绕过技术防护措施获取数据的工具并从中获利这一关键事实,中国与欧盟对网络犯罪的严密规制高度一致。然而,这种处理方式与美国的裁判原则存在显著差异。美国更倾向于在公开数据领域保护数据使用者的创新与竞争权益,而非单纯基于技术防护措施限制数据抓取行为。