专栏名称: 创事记

新浪科技旗下高端专栏，犀利观点，欢迎投稿。

网络爬虫合法吗？中美有不同看法

创事记 · 公众号 · · 2019-12-27 16:30

正文

文/易舒云

来源：腾云（ID:tenyun700）

晚上好，圣诞快乐！

如题。这个问题正变得越来越重要。

在法律的层面，既要保护个人信息，又不能阻碍数据的流通与使用。怎么办？

网络爬虫，合法吗？

一个平台运用“爬虫工具”浏览另一个平台的网页内容，并且从中抓取它所查找的信息，满足这些特征的行为被定义为“网络爬虫”。

“爬”这个动词已经逐渐成为了人们的日常用语，说起“爬内容”、“爬数据”，大家或多或少都能明白这个动作的意义。

数据早已被认为是这个时代的石油——甚至在很多时候比石油更为稀缺。对于石油来说，“偷窃”显然是一种违法行为，但对于数据来说，“爬”这种行为违法吗？

最近几年，“网络爬虫”引发的法律层面的争议越来越多。

必须先回答这样一个问题：被爬取的数据到底属于谁。只有讨论清楚“归属权”，才能在此基础上讨论“授权问题”。

数据归属权的确认困难重重。

企业的平台数据中常常包含大量的个人数据，因此平台数据可以被认为是个人所有、平台所有、个人与平台共有，也可以被认为是互联网空间的公共数据。

在法律界，以中美两个互联网大国为代表，各国对数据权属领域都没有直接、明确的立法，学界也没有达成广泛的共识。

但在实务层面，当事人常常会选择直接绕开这一争议，从实际场景出发，在已有法律明确规定和保护的范畴内解决问题。——这是一种寻求司法救济的有效方式。

在美国，法院规制数据爬虫的法律途径主要有四种：

非法入侵私人财产（trespass to chattels）；
合同违约（breach of contract）；
违反著作权（copyright violations）；
违反《计算机欺诈和滥用法》（CFAA violations）。

其中，CFAA在实务中被广泛援用是近年来的一大趋势。

这一法案对“故意未经授权或超越授权访问计算机信息系统并因此从任何受保护的计算机获取信息”的行为创设了民事和刑事责任。

美国最高法院则进一步解释，CFAA规定了两类非法访问受保护的计算机信息系统从而构成犯罪的行为：

未经授权访问；
虽获得授权访问但不当使用。

而在中国，当法院判定网络爬虫行为违法时，援引的主要是《反不正当竞争法》第二条中规定的“经营者的合法权益”——以此为依据，判定第三方未经授权的网络爬虫，大量获取数据经营者用户数据的行为违法。

不过，法院只是把平台数据或数据产品界定为“企业在竞争中的比较优势以保护排他性利益”，也就是说，法院并未承认企业对数据的财产权。

除了这部法律之外，我国的《反不正当竞争法》《劳动法》《合同法》《公司法》《中外合资经营企业法》《刑法》等系列法律都有关于商业秘密的规定，企业可以通过这些途径保护部分数据。

正是基于这样的背景，本文希望通过梳理中、美两国的典型案例，厘清影响数据爬虫行为合法性的两个关键因素：数据属性和授权模式。希望可以为企业的相关实践提供法律风险的规避建议。

影响合法性的因素之一：数据属性

▌问题1：是“公开数据”吗？

数据是否公开、可访问是影响爬取行为正当性的重要因素。

怎么定义数据的公开与否？

一般来说，数据控制者采取了技术保护手段的数据属于不公开数据。举个例子，在Facebook v. Power Ventures案中，以账号密码方式保护的用户数据被明确认定为不属于公开数据。

对于非公开数据，中、美两国的司法实践有着相似的主张：相应的数据爬取行为需要得到数据控制者的授权。

有趣的是，对于那些用户主动选择公开，但数据控制者未授权爬取的数据，美国法院的态度经历了一个“由严格至宽松”的转变，中国法院则仍倾向于需要获得用户及企业的授权。

2000年，美国Bidder's Edge公司对Ebay网站进行了数据爬虫，Ebay因此向加利福利亚北区法院提起诉讼，理由包括：该爬虫行为违反了robot协议，具有非法侵入（trespass）、计算机欺诈和滥用、不公平竞争等违法行为。

法院基于以下几点，认同了非法入侵的控告

Ebay公司的服务器是私人财产；
其给予的公众访问权限是授予的，Ebay一般不允许爬虫机器人进行访问；
Ebay已经明确告知Bidder’s Edge公司不许对其网络进行爬虫，认同了非法入侵这一控告，认为被告未经授权干扰原告在计算机系统中的占有权益，直接导致原告受到损害。

在这一案件中，法院回避了数据权属的问题。法院主要以服务器私有这一理由认定了Bidder’s Edge公司的行为属于非法入侵动产，这等于间接承认了爬取公开数据需要平台的授权。

但在2017年的hiQ Labs Inc v. LinkedIn Corporation（以下简称领英案）案中，情况发生了重大改变。

让我们先来看一下这一案件的基本案情。

hiQ Labs（以下简称“hiQ”）是一家为雇主提供雇员评估服务的数据分析公司。它使用自动化机器人，从拥有超过5亿用户的职业社交网站LinkedIn上抓取用户公开的个人资料，包括姓名，职务，工作经历和技能等，然后通过算法处理这些数据，将分析结果出售给客户。这种行为持续了五年。

2017年5月

LinkedIn向hiQ发警告函，要求其停止未经授权的访问和数据爬取行为，并针对hiQ设置了相应的技术手段，防止hiQ继续爬取数据。LinkedIn在警告函里表明，如果hiQ不停止抓取行为，将违反一系列联邦法和州法，尤其是CFAA。

2017年6月

hiQ向美国加州北部地区法院提出诉讼，主张LinkedIn的行为违反了加州宪法中有关言论自由的规定，违背了“允诺禁反言（promissory estoppel）”原则，违反加州的《反不正当竞争法》，构成《加州商业及专业法》第17200条项下的不公平商业行为等。

随后，hiQ对LinkedIn的行为发起了初步禁令的动议。

2017年8月

美国加州北区地方法院支持了hiQ的禁令动议，裁定：LinkedIn不得阻止hiQ进入、复制并使用其网站的公开信息；在临时禁令期间，LinkedIn须撤回并禁止再向hiQ发送禁止其使用数据的法律声明。

LinkedIn不服，提起了上诉，但上诉法院依然支持了禁令。

领英案的判决具有里程碑意义。

针对LinkedIn主张的，hiQ继续爬取其数据违反CFAA的规定，属于未经授权侵入了受保护的计算机系统。美国加州北区地方法院的法官认为，关键问题是：在LinkedIn发警告函明确禁止hiQ访问数据后，hiQ继续抓取LinkedIn的公共数据是否构成CFAA规定的“未经授权访问计算机”。

首先，法官驳斥了LinkedIn提出的用以支持己方观点的两个案例：Power Ventures案和Nosal II案。法官认为，这两个案例并不同于本案，其数据不是公开的，而是受密码验证系统保护的，所以不能未经对方企业授权就爬取。

其次，法官在判决中写到：“CFAA必须在其历史背景下进行解释，并牢记国会的宗旨。”意思是，CFAA的出台早于互联网的出现，它无法直接应对现代科技在一定层面的问题。

判决通过援引美国第九巡回上诉法庭在United States v. Nosal(Nosal I)案中的相关阐述：

“国会在1984年颁布CFAA的主要目的是解决日益严重的黑客攻击问题”，主张不要对CFAA进行过度的扩张解释，导致“其适用范围扩大到计算机黑客行为之外，而将任何未经授权使用计算机信息系统数据的行为认定为犯罪”。

换言之，如果网站随时可以用任何理由撤销对任何人的授权，并援引CFAA强制执行，那将会使广泛的互联网用户承担刑事和民事责任。

接着，该判决了援引美国联邦最高法院对 Packingham v. North Carolina案的判决：

在当前社会中，社交媒体网站已经成为大多数人“获取实时资讯，寻求就业岗位，在网络空间中表达和聆听意见，以及在其他方面探索人类思想和知识疆域”的主要来源。

法院从整体上将互联网和社交媒体网站与“现代公共广场”的概念进行类比，法院认为，两者的规范共识中都包含了“对所有来访者的开放性和可访问性”。

另外，这一案件从言论自由角度出发的辩护意见也具有代表性。

hiQ公司聘请了哈佛大学法学院的劳伦斯·却伯教授作为顾问。这位教授提出，数据与信息的访问权属于一种言论自由的权利；数据的本质是一种言论，而言论的本质是流通与共享，具有公共属性，因此对公开数据进行网络爬虫不需要网络平台或个人的授权。

当然，这一案件的判决还考虑到了其他因素，并不仅仅限于数据问题。比如，hiQ完全依赖二次利用LinkedIn的公开数据以经营业务，这未给领英造成损害，但一旦停止会给hiQ造成毁灭性打击。

本案的判决说理主要是围绕临时禁制令展开，主要考虑四点因素：胜诉的可能性、是否具有难以弥补的损害、对双方利益的权衡和公共利益。从难以弥补的损害和对双方利益的权衡角度来看，法院倾向于支持hiQ是情理之中的。

再者，一个不容忽视的事实是：五年来，LinkedIn对hiQ的网络爬虫行为一直是允许的，在阻止这一数据爬取行为时LinkedIn却正好宣布要提供与hiQ类似的服务，这使得LinkedIn拒绝hiQ抓取数据，涉嫌滥用市场支配地位，排除竞争对手。

如今，美国对用户隐私的研究已经发展到“场景隐私”理论( contextual privacy) 。

海伦·尼森鲍姆教授提出的数据的场景性公正理论（Theory of Contextual Integrity ）主张，保护隐私与个人信息的关键并不在于隔绝信息，而在于确保信息流通的“语境性公正（contextual integrity）”。

即在特定的语境中，信息流动应符合人们预期（不过，领英案的法官判决提醒我们，用户将自己的资料公开并不意味着其允许第三方以任何目的收集和使用其数据）；特定的信息流动与特定的场景化的信息模式相匹配，在特定语境中分享的信息，不应在有违这种语境的环境中分享。

因此，隐私与个人信息保护法一定要尊重语境（respect for context），应当根据语境制定数据使用方式的规则。

简言之，线上环境下用户的隐私预期是依据场景的，就像医生将病人的个人信息告诉一些商业机构时病人会惊讶，但如果告诉的对象是保险公司或药剂师则不会有微词。

由此转变可见，美国越来越从宏观的公共利益角度审视用户数据的流通和共享行为，态度逐步开放。

中国的情况如何？

相较而言，我国虽然也重视个人公开数据的价值与利用，但目前的态度仍然趋于保守。

中国与之对应的典型案例是新浪诉脉脉案，法院由此提出了“用户授权+平台授权+用户授权”的“三重授权”原则。

本案的起因是脉脉超出合作权限获取并使用新浪微博用户的职业信息、教育信息；未经微博及其用户的同意，展示了脉脉用户手机通讯录联系人与新浪微博用户的对应关系。

微博认为，脉脉没有充分尊重《开发者协议》，未能尊重用户的知情权及自由选择权，以及降低了微博的竞争优势。

新浪起诉后，一审法院主要援引了《反不正当竞争法》第2条判决脉脉的行为违法。该法条的内容为：

“经营者在生产经营活动中，应当遵循自愿、平等、公平、诚信的原则，遵守法律和商业道德。本法所称的不正当竞争行为，是指经营者在生产经营活动中，违反本法规定，扰乱市场竞争秩序，损害其他经营者或者消费者的合法权益的行为。本法所称的经营者，是指从事商品生产、经营或者提供服务（以下所称商品包括服务）的自然人、法人和非法人组织。”

二审法院维持了一审判决结果，并进一步强调，在互联网行业中适用《反不正当竞争法》第二条更应秉持谦抑的司法态度，在满足最高人民法院在（2009）民申字第1065号“山东省食品进出口公司等与青岛圣克达诚贸易有限公司等不正当竞争纠纷再审案”中提出的三个条件[3]之外，还需满足以下三个条件才可适用：

该竞争行为所采用的技术手段确实损害了消费者的利益，例如：限制消费者的自主选择权、未保障消费者的知情权、损害消费者的隐私权等；
该竞争行为破坏了互联网环境中的公开、公平、公正的市场竞争秩序，从而引发恶性竞争或者具备这样的可能性；
对于互联网中利用新技术手段或新商业模式的竞争行为，应首先推定具有正当性，不正当性需要证据加以证明。

最后，法院明确表示：庞大的新浪微博用户的数据信息是其拥有的重要商业资源。用户信息作为社交软件提升企业竞争力的基础及核心，新浪微博在实施开放平台战略中，有条件地向开发者应用提供用户信息，坚持“用户授权”＋“新浪授权”＋“用户授权”的三重授权原则，目的在于保护用户隐私同时维护企业自身的核心竞争优势。

“三重授权”原则是法院在微博诉脉脉案中，基于保护企业的竞争优势，禁止爬取非公开的用户数据而提出的。

值得注意的是，虽然美国法院在Facebook v. Power公司案的判决中也基于数据属于个人与平台共有这一观点，相似地确立了双重授权原则，即要求其获得个人用户（控制他们的数据和个人页面）和平台（将这些数据存储在其物理服务器上）的授权，在Facebook 发出终止通知后，仅获得用户的许可还不足以构成授权。

但是，这更多针对的是非公开数据。

对于公开数据而言，数据权利的本质是一种共享权，共享的基本前提是开放，核心是信任；共享的本质精神是利他，即是让数据权利、数据利用、数据保护与数据价值融为一体。

可以预见的是，日后国内的审判实践还将根据具体的案件情况，决定是否适用或者调整适用该原则。

▌问题2：原始数据还是衍生数据？

数据属于原始数据还是衍生数据，也是影响数据爬虫行为合法性的重要因素。

熊钱富提出区分原始数据与衍生数据，并根据不同的数据法律关系配置相应的数据权利制度。

原始数据的所有权归属于用户个人，由用户本人享有占有、使用、收益、处分的权利；而衍生数据的所有权因是基于数据价值的“第二次”创造，则归属于衍生数据的“创造者”，并由该衍生数据的“创造者”享有占有、使用、收益、处分等权利。

照此逻辑推论，平台上由用户直接创造或由用户行为留下的数据属于用户，由企业加工、创造而得的数据属于企业。

在美国，单纯地爬取其他企业平台上公开的原始数据并不违法。

领英案的判决，基本承认了第三方企业可以在获得用户授权的情况下爬取企业平台上公开的、原始的个人数据。

Facebook v．Power Ventures案同样表明了这一点。

该案的基本情况是：Power Ventures专注于社交聚合服务，用户可在该软件上同时登陆Facebook、LinkedIn等社交软件，并提供 Facebook的登陆密码供Power Ventures抓取其Facebook账号内的用户数据。随后，Facebook知晓并向Power Ventures发送了禁止函，Power Ventures则更换IP地址继续进行访问。

该案是典型的使用他人内网账号抓取数据的情况，但是，只要使用他人的内网账号爬取数据就构成违规使用吗？

2016年第九巡回法院的判决并没有支持原告的这一理由，而是认为被告在原告明确撤回授权后继续爬取原告网页的行为才违反了CFAA。

简言之，未经对方企业授权而爬取用户数据这一事实并不充分地构成违规。据此，至少可以得出结论，从数据的属性而言，爬取企业平台上的原始数据在美国并不违法。

在中国，未经用户和对方企业授权，爬取其他企业平台公开的原始数据是违法的。由微博诉脉脉案所确立的“三重授权”原则明晰地表现了这一点。至于与企业相关性更大的衍生数据，则更不言而喻。

在国内，未经对方企业授权，爬取其衍生数据是绝对违法的。至于是否还需用户授权，则还不明确。

淘宝诉美景案的法院判决是司法机关保护企业衍生数据的典型案例。

本案纠纷始于淘宝公司独立开发和运营的零售电商数据产品“生意参谋”。它是基于对淘宝用户的浏览、搜索、收藏、加购、交易等活动留下的痕迹信息进行加工处理，从而形成的具有衍生性质的数据产品，主要用于向淘宝商家提供数据化的商业参考。

被告美景公司涉嫌引诱已订购“生意参谋”产品的淘宝用户下载其产品分享、共用子账户，并在其平台上出租“生意参谋”产品子账户以获取佣金。

与此同时，美景公司还组织自己平台用户租用“生意参谋”子账户，为其通过远程登录“出租者”电脑等方式使用“出租者”子账户查看“生意参谋”产品数据内容提供技术帮助，并从中牟利。

淘宝公司以美景公司为被告，向杭州互联网法院提起诉讼，认为美景公司的行为对“生意参谋”已构成实质性替代，直接导致了后者的订购量和销售额减少，极大损害了淘宝公司的经济利益；并且，该行为恶意破坏了淘宝公司的商业模式，严重扰乱大数据行业的竞争秩序，已经构成了不正当竞争行为。

该案的核心焦点之一是，法院认为淘宝公司对“生意参谋”数据产品享有的是财产性权益，而非财产权利。淘宝公司认为，“生意参谋”数据产品所提供的数据内容系其在收集海量原始数据基础上，经过深度分析处理、整合加工而形成的衍生数据。

法院赞成。

法院认为，“生意参谋”实际是一种网络大数据产品。它不同于原始网络数据，其提供的数据内容虽然同样源于网络用户信息，但经过网络运营者大量的智力劳动成果投入，经过深度开发与系统整合，最终呈现给消费者的数据内容，已独立于网络用户信息、原始网络数据之外，是与网络用户信息、原始网络数据无直接对应关系的衍生数据。

法院提出，网络运营者对于其开发的大数据产品，应当享有自己独立的财产性权益。不过，财产所有权作为一项绝对性权利，一旦被赋予则意味着不特定多数人将因此承担相应义务，关涉极大。因此，法院并未进一步确认淘宝对数据产品的财产权利。

而本案判决中所言的财产性利益，是基于反不正当竞争的保护框架，企业必须在受到侵害时才可以获得法律保护，无法获得事前救济。与财产权相比，这种侵权救济的保护是消极赋权模式。

▌其他分类

在一些案件，法院直接以企业对其数据是否存在投入作为判断是否给予保护的前提。

例如，在北京阳光数据公司诉上海霸才数据信息有限公司技术合同纠纷案中，法院认定原告对于诉争金融数据库付出了大量投资，因此应获得保护。

在上海钢联电子商务有限公司诉上海纵横今日钢铁电子商务有限公司、上海拓迪电子商务有限公司的不正当竞争纠纷案件中，上海市第二中级人民法院同样判定原告对其投入了大量人力、物力、财力和时间搜集编汇的钢铁价格数据信息具有合法权益。

这种做法非常接近于为企业就其合法形成的数据确立一种新的排他性财产权，不过在名义上仍然限于反不正当竞争范畴。

影响合法性的因素之二：授权模式

▌一般性禁止

数据被抓取方对第三方网络平台所采取的一般性禁止措施主要包括：Robots协议和ToS 禁止。前者没有法律强制力；后者则具有，即违反ToS 禁止爬取对方企业的数据，有可能构成违约行为，需承担一定的法律责任。

Robots 协议（或称机器人协议或拒绝机器人协议）指由网站所有者生成一个指定的文件robot.txt，用以指明网站中哪些目录下的网页是不允许爬虫抓取的，并将这个文件放在网站服务器的根目录下。友好的爬虫者在抓取一个网站的网页前，往往会先读取 robot.txt 文件，对于禁止抓取的网页和数据不进行下载。

一般情况下，被爬取数据的网站都会给出Robots协议，而非直接采取技术手段禁止来自某IP地址的访问。不过Robots协议只是一个君子协定，并没有法律上的强制约束力。

具有法律强制力ToS 禁止，即Terms Of Service，服务条款协议。它类似于许可软件的最终用户许可协议（EULA）。二者的不同之处在于，适用前者的用户不是使用开箱即用的软件产品，而是使用服务。

从文字处理器和图形设计程序到高级行业软件或统计软件服务，用户可以在各种软件上遇到服务条款。以ToS 禁止的方式作出禁止数据爬取警示的网络平台不在少数。

例如，在线大型免费分类广告网站Craigslist，就在其ToS，即《Craigslist使用条款》中写道：“您同意不通过机器人、蜘蛛、脚本、数据提取、爬虫或任何自动或手动等工具复制或收集本网站内容”。

若平台采用ToS 禁止，拒绝第三方网络平台对其数据进行爬取，那么后者即无权对其数据进行爬取下载，否则就可能构成违约行为，需要承担一定的法律责任。

▌制止函及IP壁垒

被抓取数据的网站一旦发现有IP违反一般性禁止进行访问，便会发送制止函，同时设置 IP 壁垒禁止相关IP访问。这一行为在美国被认定为撤销对方继续访问己方网站的授权。若爬取方继续数据爬取行为，则会违法。不过，若爬取的是具有公共属性的数据，被爬取平台的撤销授权措施则毫无意义。

Craigslist v. 3Taps案是典型案例。

本案中，原告Craigslist在发现被告3Taps对其网站的访问存在异常情况后，便向其发送了制止函，禁止其相关IP访问。但在收到制止函后，被告3Taps 仍使用不同的IP地址和代理服务器来隐藏其身份绕过Craigslist 设置的IP壁垒，继续爬取数据。

对此，法院在判决中认为，原告Craigslist发送制止函并禁止相关 IP 访问的行为实质上已经构成了对被告3Taps访问其网站的授权的撤销，被告无视制止函继续抓取数据的行为违反法律。

此外，发生在Craigslist v. 3Taps 案之后的hiQ Labs v. LinkedIn案提醒我们还需注意被抓取数据的性质。若被抓取的数据具有公共开放性，属于网络空间的公共产品，那就无需数据控制者的授权，其撤销授权自然也不会对爬去行为的合法性产生影响。

在Craigslist v. 3Taps案件中，法院关注的重点在于数据的抓取是否违反了数据被抓取方的警示措施，判决认为Craigslist发送的制止函以及设置的 IP 壁垒可被视为撤销了对被告继续访问该网站的授权；而在领英案中，法院则考虑到了被抓取数据的性质。

虽然LinkedIn同样向hiQ发送了制止函并且采取了相应的禁止IP访问的技术措施，但由于hiQ所抓取的数据具有公共开放性，导致LinkedIn撤销 hiQ接入自己公共部分的授权，并不会使hiQ的行为变成CFAA意义上的“未经授权”。

并且，正是因为担心如果绕开LinkedIn的技术措施会导致其承担法律责任， hiQ才向法院申请禁令，这强调了在明确数据属性后，对方企业授权的重要性。

网络爬虫合法吗？中美有不同看法

正文

请到「今天看啥」查看全文