数据是否公开、可访问是影响爬取行为正当性的重要因素。
怎么定义数据的公开与否?
一般来说,数据控制者采取了技术保护手段的数据属于不公开数据。举个例子,在Facebook v. Power Ventures案中,以账号密码方式保护的用户数据被明确认定为不属于公开数据。
对于非公开数据,中、美两国的司法实践有着相似的主张:相应的数据爬取行为需要得到数据控制者的授权。
有趣的是,对于那些用户主动选择公开,但数据控制者未授权爬取的数据,美国法院的态度经历了一个“由严格至宽松”的转变,中国法院则仍倾向于需要获得用户及企业的授权。
2000年,美国Bidder's Edge公司对Ebay网站进行了数据爬虫,Ebay因此向加利福利亚北区法院提起诉讼,理由包括:该爬虫行为违反了robot协议,具有非法侵入(trespass)、计算机欺诈和滥用、不公平竞争等违法行为。
法院基于以下几点,认同了非法入侵的控告
在这一案件中,法院回避了数据权属的问题。法院主要以服务器私有这一理由认定了Bidder’s Edge公司的行为属于非法入侵动产,这等于间接承认了爬取公开数据需要平台的授权。
但在2017年的hiQ Labs Inc v. LinkedIn Corporation(以下简称领英案)案中,情况发生了重大改变。
让我们先来看一下这一案件的基本案情。
hiQ Labs(以下简称“hiQ”)是一家为雇主提供雇员评估服务的数据分析公司。它使用自动化机器人,从拥有超过5亿用户的职业社交网站LinkedIn上抓取用户公开的个人资料,包括姓名,职务,工作经历和技能等,然后通过算法处理这些数据,将分析结果出售给客户。这种行为持续了五年。
LinkedIn向hiQ发警告函,要求其停止未经授权的访问和数据爬取行为,并针对hiQ设置了相应的技术手段,防止hiQ继续爬取数据。LinkedIn在警告函里表明,如果hiQ不停止抓取行为,将违反一系列联邦法和州法,尤其是CFAA。
hiQ向美国加州北部地区法院提出诉讼,主张LinkedIn的行为违反了加州宪法中有关言论自由的规定,违背了“允诺禁反言(promissory estoppel)”原则,违反加州的《反不正当竞争法》,构成《加州商业及专业法》第17200条项下的不公平商业行为等。
随后,hiQ对LinkedIn的行为发起了初步禁令的动议。
美国加州北区地方法院支持了hiQ的禁令动议,裁定:LinkedIn不得阻止hiQ进入、复制并使用其网站的公开信息;在临时禁令期间,LinkedIn须撤回并禁止再向hiQ发送禁止其使用数据的法律声明。
LinkedIn不服,提起了上诉,但上诉法院依然支持了禁令。
领英案的判决具有里程碑意义。
针对LinkedIn主张的,hiQ继续爬取其数据违反CFAA的规定,属于未经授权侵入了受保护的计算机系统。美国加州北区地方法院的法官认为,关键问题是:在LinkedIn发警告函明确禁止hiQ访问数据后,hiQ继续抓取LinkedIn的公共数据是否构成CFAA规定的“未经授权访问计算机”。
首先,法官驳斥了LinkedIn提出的用以支持己方观点的两个案例:Power Ventures案和Nosal II案。法官认为,这两个案例并不同于本案,其数据不是公开的,而是受密码验证系统保护的,所以不能未经对方企业授权就爬取。
其次,法官在判决中写到:“CFAA必须在其历史背景下进行解释,并牢记国会的宗旨。”意思是,CFAA的出台早于互联网的出现,它无法直接应对现代科技在一定层面的问题。
判决通过援引美国第九巡回上诉法庭在United States v. Nosal(Nosal I)案中的相关阐述:
“国会在1984年颁布CFAA的主要目的是解决日益严重的黑客攻击问题”,主张不要对CFAA进行过度的扩张解释,导致“其适用范围扩大到计算机黑客行为之外,而将任何未经授权使用计算机信息系统数据的行为认定为犯罪”。
换言之,如果网站随时可以用任何理由撤销对任何人的授权,并援引CFAA强制执行,那将会使广泛的互联网用户承担刑事和民事责任。
接着,该判决了援引美国联邦最高法院对 Packingham v. North Carolina案的判决:
在当前社会中,社交媒体网站已经成为大多数人“获取实时资讯,寻求就业岗位,在网络空间中表达和聆听意见,以及在其他方面探索人类思想和知识疆域”的主要来源。
法院从整体上将互联网和社交媒体网站与“现代公共广场”的概念进行类比,法院认为,两者的规范共识中都包含了“对所有来访者的开放性和可访问性”。
另外,这一案件从言论自由角度出发的辩护意见也具有代表性。
hiQ公司聘请了哈佛大学法学院的劳伦斯·却伯教授作为顾问。这位教授提出,数据与信息的访问权属于一种言论自由的权利;数据的本质是一种言论,而言论的本质是流通与共享,具有公共属性,因此对公开数据进行网络爬虫不需要网络平台或个人的授权。
当然,这一案件的判决还考虑到了其他因素,并不仅仅限于数据问题。比如,hiQ完全依赖二次利用LinkedIn的公开数据以经营业务,这未给领英造成损害,但一旦停止会给hiQ造成毁灭性打击。
本案的判决说理主要是围绕临时禁制令展开,主要考虑四点因素:胜诉的可能性、是否具有难以弥补的损害、对双方利益的权衡和公共利益。从难以弥补的损害和对双方利益的权衡角度来看,法院倾向于支持hiQ是情理之中的。
再者,一个不容忽视的事实是:五年来,LinkedIn对hiQ的网络爬虫行为一直是允许的,在阻止这一数据爬取行为时LinkedIn却正好宣布要提供与hiQ类似的服务,这使得LinkedIn拒绝hiQ抓取数据,涉嫌滥用市场支配地位,排除竞争对手。
如今,美国对用户隐私的研究已经发展到“场景隐私”理论( contextual privacy) 。
海伦·尼森鲍姆教授提出的数据的场景性公正理论(Theory of Contextual Integrity )主张,保护隐私与个人信息的关键并不在于隔绝信息,而在于确保信息流通的“语境性公正(contextual integrity)”。
即在特定的语境中,信息流动应符合人们预期(不过,领英案的法官判决提醒我们,用户将自己的资料公开并不意味着其允许第三方以任何目的收集和使用其数据);特定的信息流动与特定的场景化的信息模式相匹配,在特定语境中分享的信息,不应在有违这种语境的环境中分享。
因此,隐私与个人信息保护法一定要尊重语境(respect for context),应当根据语境制定数据使用方式的规则。
简言之,线上环境下用户的隐私预期是依据场景的,就像医生将病人的个人信息告诉一些商业机构时病人会惊讶,但如果告诉的对象是保险公司或药剂师则不会有微词。
由此转变可见,美国越来越从宏观的公共利益角度审视用户数据的流通和共享行为,态度逐步开放。
中国的情况如何?
相较而言,我国虽然也重视个人公开数据的价值与利用,但目前的态度仍然趋于保守。
中国与之对应的典型案例是新浪诉脉脉案,法院由此提出了“用户授权+平台授权+用户授权”的“三重授权”原则。
本案的起因是脉脉超出合作权限获取并使用新浪微博用户的职业信息、教育信息;未经微博及其用户的同意,展示了脉脉用户手机通讯录联系人与新浪微博用户的对应关系。
微博认为,脉脉没有充分尊重《开发者协议》,未能尊重用户的知情权及自由选择权,以及降低了微博的竞争优势。
新浪起诉后,一审法院主要援引了《反不正当竞争法》第2条判决脉脉的行为违法。该法条的内容为:
“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。本法所称的经营者,是指从事商品生产、经营或者提供服务(以下所称商品包括服务)的自然人、法人和非法人组织。”
二审法院维持了一审判决结果,并进一步强调,在互联网行业中适用《反不正当竞争法》第二条更应秉持谦抑的司法态度,在满足最高人民法院在(2009)民申字第1065号“山东省食品进出口公司等与青岛圣克达诚贸易有限公司等不正当竞争纠纷再审案”中提出的三个条件[3]之外,还需满足以下三个条件才可适用:
-
该竞争行为所采用的技术手段确实损害了消费者的利益,例如:限制消费者的自主选择权、未保障消费者的知情权、损害消费者的隐私权等;
-
该竞争行为破坏了互联网环境中的公开、公平、公正的市场竞争秩序,从而引发恶性竞争或者具备这样的可能性;
-
对于互联网中利用新技术手段或新商业模式的竞争行为,应首先推定具有正当性,不正当性需要证据加以证明。
最后,法院明确表示:庞大的新浪微博用户的数据信息是其拥有的重要商业资源。用户信息作为社交软件提升企业竞争力的基础及核心,新浪微博在实施开放平台战略中,有条件地向开发者应用提供用户信息,坚持“用户授权”+“新浪授权”+“用户授权”的三重授权原则,目的在于保护用户隐私同时维护企业自身的核心竞争优势。
“三重授权”原则是法院在微博诉脉脉案中,基于保护企业的竞争优势,禁止爬取非公开的用户数据而提出的。
值得注意的是,虽然美国法院在Facebook v. Power公司案的判决中也基于数据属于个人与平台共有这一观点,相似地确立了双重授权原则,即要求其获得个人用户(控制他们的数据和个人页面)和平台(将这些数据存储在其物理服务器上)的授权,在Facebook 发出终止通知后,仅获得用户的许可还不足以构成授权 。
但是,这更多针对的是非公开数据。
对于公开数据而言,数据权利的本质是一种共享权,共享的基本前提是开放,核心是信任;共享的本质精神是利他,即是让数据权利、数据利用、数据保护与数据价值融为一体。
可以预见的是,日后国内的审判实践还将根据具体的案件情况,决定是否适用或者调整适用该原则。