今天,一个时隔一年的国内“史上最大规模的数据窃取案”有了新的进展。
2018年8月,阿里安全协助警方侦破了该案件,事涉7名被告人及一家上市公司瑞智华胜,他们通过竞标的方式,先后与全国多地的电信、移动、联通、铁通、广电等运营商签订营销广告系统服务合同,为运营商提供广告投放系统的开发、维护,进而拿到了运营商服务器的远程登录权限。
拿到权限后,他们把自己编写的脚本程序植入后台,当用户流量经过运营商服务器时,他们可以拿到这些数据,然后就是数据清洗,导出,整理,贩卖。
由于脚本直接植入在互联网运营商的底层,所有使用服务的互联网公司的用户数据也未能幸免,全国共有96家互联网公司的用户数据被窃取,基本涵盖大部分大型互联网公司。
这些数据被用来在网络领域刷赞刷流量,当初微博大量用户反馈自己在毫无感知的情况下给一些不认识的账户点赞,就源自账户数据被人异地登录操作。
这起案件的背后,是无数黑产的黑色生意在肆意流转。
我们人类是活在地球上的吗?
是,也不完全是。
在大数据年代,我们每个人其实都是活在地球上的硬盘里的。
这个硬盘非常广阔,如浏览器,APP,手机,电子设备,信用卡等你与外界相连的信息,以及你身边人的信息,都在里面会被关系网络串联在一起。
有一个很流行的六度关系理论说只要通过6个中间人,你就能找到这个世界上的任何一个人。
从这个角度说,数据化时代,硬盘里的我们都是一家人。
硬盘为我们创造了前所未有的生活便利,同时内中也暗藏着一定风险。
有光必有影,光影必相依。
风险制造者往往是试图从中牟利的数据黑灰产团伙,他们盗取数据、滥用数据等作恶行为,不仅损害了数据产生者和用户利益,更为重要的是还严重扰乱了整个数据产业的正常秩序,也抹黑了整个产业名声。
他们违法成本极低,因其有不易被发现,且取证难、执法难等特征,一旦发生数据泄漏事件,通常是受害方为其“背锅”。
通常这种情况,整治处罚的不是数据作恶者。他们依旧会死灰复燃甚至继续逍遥法外,给行业深埋着更大的风险“炸弹”。
今天这篇文章,我想简单谈谈大数据黑产的现状。
以及数据化之后我们在风中飘扬的人生。
世界范围内,上周数据安全圈子最大的事件是,美国CapitalOne有近1亿条客户数据泄露并被上传至GitHub中近3个月,这些数据包含近亿美国用户的个人信息,社会安全号码以及银行账号。
CapitalOne在美国的地位大概相当于招商银行在国内的地位,属于为用户提供一站式金融服务的国民级零售银行。
CapitalOne最出名的业务是信贷风控,国内互金繁荣的时候,非常多的互金高管都是从CapitalOne中历练出来的,可以说是世界高利贷界的黄埔军校。
GitHub,现在属于微软,虽然表面上是一个论坛,但在全世界程序员的心中有着不可替代的作用,每一个程序员都会在GitHub中与全世界的同行交流,用代码来证明自己,大概相当于程序员中的微博+微信。
这起事件的严重程度,大概相当于招商银行的用户数据被人挖出来打包放在了微博上供人随意下载了3个月,不知道多少黑产笑的嘴都歪了。
2019年8月3号,美国已经有律师事务所对这两家公司提起了集体诉讼,这是非常严重的事件。
而这1亿美国人的信息暴露后,如果没有及时止损报备,等待他们的将是无止境的信息盗用,信用卡盗刷,异常网站注册,洗钱空壳,甚至高利贷缠身。
他们的人生中,将面临着无数已知未知的危险。
这种事情会发生在他们身上,也一样会发生在我们身上。
而且在你们不知道的黑暗中,已经发生了无数次了。
你收到的每一个骚扰信息,每一通诈骗电话,每一个垃圾广告,背后都有黑产的功劳。
黑产无国界,利益无国界。
很多读者经常问我说,是不是国内的大公司们都在纵容着数据黑产,甚至是刻意的去拿用户的数据卖给黑产?
我得承认,这是很多人潜意识的想法,认为大公司就必然是邪恶的,是天天想着怎么坑人害人的。
但实际上不是,倒不是因为大公司都是正义的人,商业上没有正义可言。
主要是因为算账算不过来。
每一家公司,其核心的诉求只有一点,赚钱。
再细一点,合理合法赚到可持续的钱。
越是大的公司,对于合理合法可持续,就越为重视。
当数据泄露后,不说竞争对手拿到的打击,但就舆论和法律方面的打击,对于任何一家大公司都是难以承受的后果,这不是卖数据那几个小钱可以挽回的,大家都非常聪明。
CapitalOne和GitHUB这次面临的危机如果处理不好,面临的可能是灭顶之灾。
没有一家大公司不重视自己的数据问题,因为出了问题,不说用户和法律,监管第一个不会饶了他们,数据底线不容践踏。
相信我,数据出问题后,大公司要比我们更为慌张,他们慌张自己是不是还有机会继续赚钱。
随着国内法律的进一步完善,监管的进一步趋严,数据风险对于公司的影响也将越来越大。
问题来了,数据是怎么泄露的?
攻击运营商这样的操作非常简单,但是很容易暴露,2018年8月后,就很少有不开眼的人乱来了。
那么为什么我们的隐私还是飘来荡去?是谁干的?
接下来,我要开始常规得罪利益方了。
当前国内所有黑市上的数据,主要来源有2种,黑产入侵和一些大数据公司的缓存。
先说黑产的技术或者社工(社会工程学)入侵。
一个很经典的案例,国内某以企业信息查询著名的公司,其数据库中所有的数据,近期被全被抓出,拿在黑市上卖,20W一份,会砍价的话可以砍到10W元成交,这份数据包含目前所有公开公司信息以及年报,是其业务的核心资产。
黑产是怎么拿到这些数据的?
不是你们想的神奇的传说中的黑客攻防以及各种电视剧里的攻击大战,现实没有那么多神奇的东西,简单到你不信。
走到公司楼下的咖啡厅,用脚本工具破解公司WIFI,进入内网,进一步抓到管理员的账号密码,然后直接拖库。
这种都属于稍微有一点点技术含量(其实也不高,脚本都有各种现成的)的进攻。
更简单一些的进攻是,例如想要拿到大量用户的身份地址信息,有人直接物理进攻快递公司的仓库,趁人不注意的时候一个U盘插到电脑上(很多偏远地区的加盟快递,是没有严格使用加密机器的,我在帮某公司Review风险的时候,曾经指出过这类风险),然后就拿到了各大电商拼了命保护的数据,还都是脱敏的明文数据。
很多大公司很无奈的是,自己做的再完美,也架不住生态伙伴和合作公司猪队友,现在的黑产们都是要钱,攻击大公司很麻烦还容易被反追踪,不如攻击大公司的合作伙伴。
只要攻破一个能够调用的接口,就是源源不断的数据资产。
如果说黑产攻击,算是情理之中的一件事情(他们不干这个就奇怪了)。
那么真正在威胁我们每一个人数据安全的,其实是市面上的各路所谓大数据公司,就是被追捧的那堆所谓数据科技独角兽们。
很多所谓的大数据公司,本身不产生数据源(例如车辆数据都在车管所,学历数据都在学信网,手机号信息都在运营商),也不具备数据应用场景(他们自身不做互联网业务,数据拿来没用),做的很多事情,本质上就是数据二道贩子。
典型的就是在车管所把车辆数据接出来,然后卖给车险公司或者车贷公司,做个中间商赚差价。
很多对外吹得天花乱坠的数据公司,本质上就是各类数据的二道贩子,无非是两头的角色不同,今天是车管所卖给车贷,明天是车贷卖给保险公司。
但是二道贩子,也有一颗想暴富的心,靠主营业务不能实现的话,就动起了歪脑子。
二道贩子们每天经手这么多数据,很多公司会悄悄把这些数据缓存下来(注意,这个是明确违法的,法律不允许中间商缓存数据),然后把缓存下来的数据提供给客户。
举个例子,假如我是数据公司A,我是卖征信数据的,数据一头是权威机构,数据另一头是各种贷款公司BCDE。
一个贷款客户小张,在B贷款公司申请了一笔贷款,B公司通过数据公司A来调用征信,A会把小张的数据给B的同时,也把小张的数据存了下来。
如果小张又去了C公司借款,C公司恰巧也是A公司的客户,找A调用征信,则A不需要再花钱从权威机构买了,直接把缓存的数据复制一份提供给C就可以了,成本为0。
这种利用缓存牟利的行为,在当前的大数据公司中非常普遍,毕竟作为数据通道,如果没有作缓存的话,只靠那点点差价,可能到后面连数据都买不起了,毕竟权威数据源往往都要求代理商高额的预充值。
花1份钱,卖多份数据,这是很多大数据公司的生存之道。
当黑产们与这些大数据公司遇到一起的时候,奇妙的化学反应就产生了。
由于市面上的大数据公司太多了,数据总有更便宜的,便宜到恶性竞争的地步,而投资人也不相信很多大数据公司所谓的数据驱动未来的鬼话了,这个行业的非头部公司已经越来越混不下去了。
所以有的数据公司在准备跑路前,干脆一不做二不休,直接把数据就卖了。
卖这些数据,需要黑产帮忙上黑市,傻乎乎直接明着卖的后果,是进监狱。
2017年6月,某知名上市大数据公司,就因为卖缓存卖的过于赤裸裸,好几个高管现在还在里面开心的捡肥皂。
即使下定决心卖,也要找个合适的场所卖,所以黑市,就是很好的选择。
其实也不只是在黑市上卖数据,更多时候,很多大数据公司在黑市上买数据,几百万人的,打包好的车辆缓存数据,只卖几十万,而且支持先随机验证,服务周到,免费包邮。
很多做模型的数据公司,源数据都是在黑市上买的,因为买权威数据实在太贵了,所以还是缓存便宜实惠。
而且做模型的公司,买数据还有一个好处,就是没有痕迹。
业内模型公司最常见的玩法是,买来的数据存到一台笔记本电脑中,然后在电脑里训练模型,最后把训练好的模型复制出来,电脑直接砸掉,连带里面的数据一起物理毁灭。
死无对证。
等到后来,已经发展到模型公司和数据公司委托一些黑产去定向的目标公司那里喝咖啡,进行攻击,价格开的很诱人。
例如做车贷的公司,就非常想要保险公司的车保数据,因为都是优质的客户,可以直接给授信的那种。
例如做出行生意的公司,就非常想要竞争对手的司机信息,这些车主就是赤裸裸的运力。
有一段时间,整个黑市上飞满了各种进攻的单子以及价格。
买家不知道是谁,但其实都知道是谁。
这些单子被黑产完成后,数据也被黑产们拿来卖,这些都是带血的钱。
但所有参与者都乐在其中。
我自己从事过很久的反黑产工作,也曾和公安一同进入某些黑产的窝点,亲眼见到过普通人的数据是如何被飞来飞去的,那些跳动的字节里,包含着一个人一生的爱恨情仇。
在我看来,打击的黑产的关键,不在于技术升级。
不是说技术不重要,而是说技术在无法实现真正意义上的数据闭环的前提下,能起到的作用是十分有限的。
即使一家公司把自己的数据安全做到了极致,也架不住合作伙伴被攻击,自己提供给伙伴的接口被滥用,这在整个世界范围内,都是无解的。
而且实事求是的说,防守方对于进攻方而言,永远是弱势的。
就像守门员和前锋单挑,你永远不可能完全守住背后的大门,因为进攻方从什么角度攻击你是未知的。
我认为,打击黑产的关键,不仅仅在于监管大公司,更在于三个维度。
一是监管加大对于大数据公司的乱象监管,收拢所有数据源的一级供应商数量,限制二级供应商的数量,并且对于出库的数据,打上特定的标识,让泄露在黑市上的数据都能找到源头。
二是加大对于数据犯罪的惩罚力度,虽然现在已经是可以判刑了,但是惩罚力度还没有真正达到让人恐惧的地步,要让侵犯数据隐私的人和公司意识到,只要涉及隐私,投入产出比是1比黑洞。
三是建立反数据黑产的人才制度,从各大安全公司的风控和技术里抽调出一批人,专门用于打击黑产,这批人在数据层面起到的作用会非常大,他们配合警察,产生的效果是叠加的。
让所有黑产和乱来的数据公司知道,贩卖公民个人隐私(不管是买还是卖)必被抓,抓到必被重罚,甚至重点可以放在买家身上,一旦没有了利益驱使,黑产也没有动力去做这件事,这是一个更高维度的生态闭环。
就像为什么没有黑客去进攻银行一样,不是银行技术做的多么好,而是都知道,捅了银行,等同于自杀。
反黑产的奥义,就在这里。
可喜的是,监管已经意识到了这一点,在往这一步推进了,2019年开始,国内越来越多的顶尖的黑客们都在配合监管参与反黑,抓出了一大批黑产和漏洞,数据黑市里很多ID都不再会亮起。
这条路还有很远,但我们已在路上。
反黑之路,不由分说。