专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
数据派THU  ·  【博士论文】几何中的神经表示 ·  昨天  
数据派THU  ·  【CMU博士论文】持续改进机器人的探索 ·  1 周前  
软件定义世界(SDX)  ·  【PPT】智能制造工厂三年规划 ·  1 周前  
大数据文摘  ·  2024工博会最新洞察:机器人走向大负载,中 ... ·  1 周前  
51好读  ›  专栏  ›  CDA数据分析师

川普数据公司团队意外泄漏近2亿美国选民的个人信息

CDA数据分析师  · 公众号  · 大数据  · 2017-06-20 18:52

正文

原作者 Dan O'Sullivan

编译  Mika

本文为 CDA 数据分析师原创作品,转载需授权


前言


就在今天,数据安全公司 UpGuard 证实,亚马逊的云空间上存在一个总量大于 1.1TB 的美国选民数据库,不用密码即可访问。其中几乎包含了所有 2 亿美国登记选民的个人信息。数据来源是共和党全国委员会聘请的公司 TargetPoint 、 Deep Root 和 Data Trust,共和党聘请这些公司在去年帮助特朗普赢得美国大选。


这次可能是目前已知历史上最大规模的选民信息泄露事件。


发现


在 6 月 12 日傍晚,UpGuard 网络风险分析师 Chris Vickery 在为其网络风险团队进行错误配置的数据源搜索时,发现了一个开放的云存储库。该网络风险团队属于 UpGuard 的研究单位,旨在提高公众对信息泄露问题的认识。


该数据存储库(Amazon Web Services S3 bucket)没有设置任何访问保护。 因此,只要能上网,任何人都可以访问共和党的数据操作系统,他们只需浏览一个亚马逊子域名:“dra - dw”,该系统曾用于帮助特朗普在总统选举中取得胜利。



经检查发现,“dra - dw”是 Deep Root Analytics 的数据仓库。Deep Root Analytics 是一家提供政治广告的数据公司,该公司创建了此次泄露的数据仓库。在 Vickery 联系联邦当局后不久,于 6 月 14 日的晚些时候,dra - dw 已经被禁止公众访问。


在数据仓库中总共有 1.1TB 的数据,也就是 1100GB ,约相当于 500 个小时的视频,可以免费下载。这些文件清楚地表明了资料库的政治重要性,文件目录以一些有权势的、有影响力的共和党政治组织命名。此次泄露的 Deep Root Analytics 数据仓库包含了大量可访问的数据。


然而,这还不是全部。数据仓库中还存在 24TB 的数据,但已被配置为防止公共访问。总共,存储在错误配置数据库中的数据的大小相当于 100 亿页的文本。


不太清楚的是有些无法访问的文件,比如一个名为“for_strategy_xroads_updated_FINAL”的文件,可能涉及到 American Crossroads,这是由乔治·w·布什(George w . Bush)前顾问的 Karl Rove 共同创建的政治行动委员会,在 2016 年的选举融资中非常活跃。其中还发现了大量的 Reddit 帖子,以文本形式保存:



从 6 月 12 日到 6 月 14 日,Vickery 总共花了好几天才把 1.1 TB 的数据下载完,其中包括两个名为“data_trust”和“target_point”的关键目录。


操作


Deep Root Analytics 由共和党的竞选数据科学家 Alex Lundry 在 2013 年共同创立的,Alex Lundry 曾在 Mitt Romney 2012 年竞选时担任数据总监。该公司将自己标榜为“共和党政治中最有经验的目标群体”,向企业、游说团体和共和党政治活动提供媒体分析服务,旨在达到特定的目标群体。Deep Root 声称能够通过使用大数据分析“微目标”从而有效地达到所需的人口统计,进而使客户在购买广告时做出更明智的决策。


Data Trust


为了赢得选举,共和党全国委员会需要大量专门从事数据分析的私人公司资源。 这些私人咨询公司包括 Data Trust,一家位于华盛顿的公司,声称“通过选民档案收集,开发和改进,不断发展共和党和保守的数据生态系统”。


在 Deep Root Analytics 数据库中,“data_trust”文件夹详细包括了 2016 年潜在选民信息。


“data_trust”总共涉及到 1.98 亿位潜在选民的信息。主要包括两个文件存储库,一个 256 GB 的 2008 年总统大选的文件夹和一个 2012 年的 233GB 的文件夹,每个文件包含 51 个文件,每个州都有一个文件,以及哥伦比亚特区。格式为逗号分隔值(.csv)的每个文件列出了一个32 个字符的字母数字“RNC ID”,例如 530C2598-6EF4-4A56-9A7X-2FCA466FX2E2,用于标识数据库中的每个潜在选民。这些 RNC ID 将不同的数据集结合在一起,将数十个敏感的和个人识别的数据点组合在一起,从而使根据具体细节找到具体名字成为可能。


Vickery 和记者都试图在这些电子表格中找到自己的身份信息,确认文件中包含了准确敏感的个人信息。以下列出了 csv 类别:



共和党对数据库中提到的两家公司总共已支付了超过 500 万美元。


根据联邦选举委员会的报告,2015 年 1 月至 2016 年 11 月期间,共和党向 TargetPoint 支付了 420 万美元的数据服务费,并在当时给 Causeway 约 50 万美元。 并付给 Deep Root 98.3 万美元。


TargetPoint


TargetPoint 是政治界保守派的权威机构,过去曾协助 2008 年的总统竞选,2008 年麦凯恩/佩林竞选,以及全国共和党参议院的连任工作。


“target_point”文件比 Data Trust 存储库的内容更加具影响力,乍看之下似乎不太明显:以Alteryx数据库格式(.yxdb)保存的14个文件,这是一种专门用于大规模数据分析的文件格式。大多数文件最后更新于 2017 年 1 月下旬,其中几个标记为“联系人文件”,不同的日期表示更新时间。


这些“联系文件”电子表格中包含 1.98 亿美国选民的 RNC ID 以及相应的选民姓名和地址。


庞大的选民信息的存储库,将个人的隐私、背景和政治行为结合在一起。这样一个范围规模宏大的数据库收集了大量个人信息和政治倾向,加上可以在网上免费下载,构成了一个无保障的政治宝库。



事件影响


数据暴露选民信息


数据泄露包含了大约 61% 的美国人口的个人信息。除了家庭住址、出生日期和电话号码,还包括政治团体使用的高级情感分析,用来预测选民在诸如枪支所有权、干细胞研究和堕胎权等热点问题上的看法,以及可疑的宗教信仰和种族信息。


本次信息泄露引发了人们对信息隐私和安全问题的重大质疑。同时,在美国选举程序的完整性受到一系列针对州选民数据库的网络攻击的考验之际,人们担心网络风险可能会对民主和政府机构构成威胁。


这样一个庞大的国家数据库被创建并托管在网上,甚至缺乏最简单的防止公共访问保护,这十分令人不安。收集这些信息并无法实现安全存储,进一步使被日益强大的数据分析业务所瞄准的公民质疑私人企业和政治活动中的所承担的责任。


数据泄露问题并不罕见。这次 1.98 亿美国选民受到影响,不论政治信仰如何,他们的信息被暴露出来。被遗忘的数据库、第三方供应商的风险、不当的权限,以及共和党的竞选活动,造成了几乎前所未有的数据泄露。


无可争辩的是,2017 年人们越来越无法信任信息技术系统的完整性,尤其是在规模方面。随着对技术的依赖程度的增加,网络风险的日益增加;随着生活中越来越多的功能迁移到数字平台上,网络风险也日益严重。利用公开数据进行犯罪几乎是无限的,从在黑市上进行身份盗窃、诈骗和转售之外,数据建模和分析能力也应用于更有野心的领域——企业营销、垃圾邮件、高级政治目标。如果利益相关者能够遵守收集和存储数据的基本规则,就可以防止这些潜在的私人信息滥用。


ref:

https://www.upguard.com/breaches/the-rnc-files

http://gizmodo.com/gop-data-firm-accidentally-leaks-personal-details-of-ne-1796211612


往期精彩文章回顾

 
在IT行业工作了10年之后,我转行成了一名数据科学家