专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

独家｜一文了解AI时代的数据风险（后真相时代、算法囚徒和权利让渡）

AI数据派 · 公众号 · · 2018-11-08 07:30

正文

当今，在基于数据的个性化推荐算法机制满足了人们猎奇心、窥探欲、表演欲，让人们在网络中寻找到共鸣感和认同感时，我们未曾意识到一些新问题和新风险的出现。这些新问题和风险能够影响个人对世界的认知，影响群体达成共识，甚至影响到整个时代的价值观。根据清华新闻与传播学院彭兰教授的观点，目前数据时代所面临的风险来自以下几个方面：

客观性数据可能成为后真相时代的另一种推手；
个性化算法虽然带来了个人信息服务水平的提升，但也给人们带来偏见、歧视、思想被禁锢等困扰；
相关权利保护则受到更多挑战，特别是在隐私权和被遗忘权方面。

下面，我们将进行详细解读。

风险一：大数据带来的假象

2016年，《牛津英语词典》将“后真相”（post-truth）作为年度词汇，揭示世界进入了后真相时代。罗辑思维曾对该名词做出一个精辟的总结：“过去，我们相信认知源于事实；现在，认知本身就是事实”。

这其中原因，技术自然逃离不了干系。 例如谷歌和脸书等公司开发的算法是基于用户从前的搜索和点击进行的，随着每次搜索和每次点击，用户就发现自己的偏见再次得到确认。如今的社交媒体已成为大部分人获得新闻信息的主要渠道，其中的推荐算法机制引导我们进入观念类似者的小群体空间内，它只为用户提供他们喜欢、或选择相信的信息，是否真实并不重要。

后真相现象提醒我们，数据与算法这些看上去客观的手段与方法，并不一定能带来更多真相，反而可能走向它的反面。 如果应用数据的过程不遵守一套完整的规范，或者在数据应用中出现了漏洞而未能察觉，未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。根据彭兰教授的观点，数据生产的每一个步骤都存在导致假象的风险：

1. 数据样本偏差带来的“以偏概全”

尽管已经进入到“大数据”时代，而大数据的卖点之一是“全样本”，但事实上，在现实中，获得“全样本”并不是一件容易的事。

在国内，由于历史原因，很多行业本身就缺乏完整、系统的数据积累，或者由于隐私、信息安全等问题，能公开的只有不完整的数据。譬如医疗行业和政府部门，如何打破信息孤岛，在哪种程度范围内做到公开、透明、共享，依旧是急需攻克的难题。

至于互联网数据则更是资源紧缺。 目前互联网数据都被少数拥有巨大流量的平台垄断，其他中小型企业由于先天数据不足的缺陷，只能依赖于网络爬虫从这些大平台爬取数据。此前马蜂窝被爆1800万条以上的所谓真实用户数据是抄袭自其他OTA平台，暴露了互联网行业普遍数据造假的潜规则。所以，用户所看到的对一个酒店或餐厅的好评，并不一定是真实信息，很有可能由网络机器人爬取而来。如果说数据缺失能够导致“以偏概全”，数据造假则是直接简单粗暴地蒙蔽用户了。总之，行业数据可能存在样本不完整的问题，这也必然对数据分析结果的完整性、代表性产生影响。

2. “脏数据”带来的污染

除了样本的问题外，用各种方式获取的数据，本身质量也可能存在问题。部分缺失的数据、重复的数据、失效的数据、造假的数据等，都被称为 “脏数据”。尽管数据处理前都会要求数据清洗，但这未必能完全消除脏数据带来的污染。某些数据分析者也可能因为一些原因无视脏数据的存在，甚至会制造一些脏数据。

此前人工智能对话系统微软小冰刚上线时，由于她是用实时对话的数据进行训练的，所以用户给她一些不好的对话后，导致小冰飙脏话就是数据污染的很直接例证。不久前，亚马逊的AI招聘系统被爆出性别歧视也是同样道理。从技术上讲，机器学习过程不会引入任何偏差，但训练数据中存在的任何偏差都将在算法中忠实地展现出来。AI的性别歧视，只是成功模仿了亚马逊当前的招聘状态。

因此，数据质量永远是数据分析立项后首先要考虑的。首先要理解数据来源、数据统计和收集逻辑、数据入库处理逻辑；其次是理解数据在数据仓库中是如何存放的，字段类型、小数点位数、取值范围，规则约束如何定义的；第三是明确数据的取数逻辑，尤其是从数据仓库中如何用SQL取数的，其中特别是对数据有没有经过转换和重新定义；第四是拿到数据后必须要有数据审查的过程，包括数据有效性验证、取值范围、空值和异常值处理等。当这些工作都做充足之后才能进行下一步分析。

3. 数据分析模型偏差带来的方向性错误

在美国畅销书《大规模杀伤数器：大数据如何加深不公和危害民主》中，作者提到现在的数据科学家，习惯用模拟的方式概括人类的行为，以群体画像推导个人行为，依此判定。这本质上没有问题，问题出在反馈上：大部分的模型根本没有矫正的环节，如果模型的结果有偏差，系统本身无从得知，根据错误结果持续优化，最终反而变本加厉。此外，作者还认为建立怎样的数据分析模型取决于我们自己，我们的价值观、我们的欲望，影响我们种种决策：收集哪些数据，提起什么样的问题。所谓的模型，是指内嵌于数学的观点。

除了以上三个环节可能造成假象外，包括数据挖掘能力有限、数据解读能力有限，都有可能带来偏差。总之，当今的某些大数据分析在某种意义上就是在分析甚至“制造”人们的视角，然后将符合视角的“事实”推送给他们，虽然推送的“事实”似乎是客观的，但是，当它们被放置在人们的“视角”下时，就成为了影响主观判断和态度的重要手段。

2016年美国总统大选，多家民调机构的预测结果的失败，让人们质疑数据的客观性与准确性。 而时隔两年之后曝出的Facebook数据泄露事件，在某种意义上是对民调结果失灵的一个回应，尽管我们并不能确定剑桥分析公司对大选结果的干预究竟起了多大作用。这一事件还有着更深层的寓意，它提醒我们面临的一个新挑战：一方面，数据分析的目标是追求客观地描述事物；另一方面，数据分析也可能会成为对客观事物或客观进程的干预力量。可以预见的是，未来两者之间的博弈可能会成为常态。

风险二：数据时代个人所面临的风险

在大数据时代，从个人角度看，目前数据应用与他们最直接的关联，是各种具有个性化算法推荐的应用。但事实上，这种算法既会对个人视野格局产生影响，也会暴露用户隐私。

1. 算法是否会将人们囚禁在信息茧房中？

“信息茧房”一词出自于美国学者桑斯坦，在他看来，信息茧房意味着人们只听他们选择和愉悦他们的东西。

尽管每个人都有自己的阅读偏好是正常的现象，但如果每个人关注的只是自己兴趣内的那一小片天地，他对这以外的世界，就会越来越缺乏了解。这或许不会影响到他个人的生活，但是，在需要公共对话的时候，人们会缺乏共同的 “视角”。而共同 “视角”的缺乏，意味着人们对一些事实的判断会出现差异，共识难以形成。同时，信息环境的封闭与狭隘，也可能会进一步固化人们的某些观点与立场。

从面向个人的算法角度看，要尽可能减少信息茧房效应，就要在算法设计时深入理解考虑用户行为与需求中的矛盾，例如能够及时预测用户需求的迁移或扩展，或者提供一些惯性之外的信息，给个体带来新体验等。

除了以算法来完成面向个体的内容推荐，算法也可以用于公共性内容的匹配，也就是通过算法洞察公众的共同心理，使具有公共价值的内容到达更广的人群，也同样可能帮助个体挣脱茧房的束缚。

2. 算法是否会将人们囚禁在偏见与固有的社会结构中？

算法的另一种风险，是对社会偏见的继承，以及这些偏见可能带来的文化或社会禁锢。当算法用于不当的目的时，会对某些人群或个体造成歧视与伤害。算法不仅在归纳与“同构”现有文化中存在偏见、歧视，还可能用某种方式将它们放大。譬如此前举例的亚马逊AI招聘系统性别歧视一样，机器的歧视来自于数据的偏差，而数据的偏差来自于人的偏见。

这一点，一些大数据的开发者体会更深，如国内大数据应用领域的代表性学者周涛所言，“让我们不安的是，这种因为系统设计人员带来的初始偏见，有可能随着数据的积累和算法的运转慢慢强化放大。”

3. 算法是否会使人陷入“幸福地被操纵”？

或许，个性化算法还会带来另一个深层风险，那就是在个性化服务下，个体逐渐失去自主判断与选择能力，越来越多地被算法或机器控制。从人的本性来说，懒惰是天然的，想以最小的成本或付出获得最大的报偿，是人之常情，个性化服务在这方面迎合了人性，但是，它也可能正在以方便、幸福的名义，渐渐地使人们对它产生依赖，并在不知不觉中被其麻痹，被其囚禁。

风险三个人权利的让渡是数据时代的必然代价？

数据时代对普通个体的另一个深层影响，是个体的全面数据化。在未来，用户的数据将更为多元，将通过更多渠道生成、保存，这也意味着用户数据中暗藏的风险更大，数据权利的保护面临更大的挑战。

1. 用户缺乏对自己数据的知情能力

此前李彦宏一句“中国人对隐私问题不敏感，愿意用隐私换取便利、安全或者效率”的言论让自己成为众矢之的。事实上，对于普通用户而言，并非他们不介意隐私被暴露，而是并不知道自己的隐私会如何被侵犯，以及被侵犯到何种程度。他们与那些掌握并利用甚至可能出卖他们的隐私数据的公司之间是不平等的。在缺乏对自己数据的知情能力的情况下，隐私保护根本无从谈起。

虽然在某些时候，以隐私换便利是用户的一种不得已的选择，但用户应该有权利知道，出让的是哪些隐私数据，能获取哪些便利，以便他们做出权衡。但今天的网络服务提供者多数并没有提供充分的解释，即使有一些隐私条款，也往往语焉不详或者暗藏陷阱。

独家｜一文了解AI时代的数据风险（后真相时代、算法囚徒和权利让渡）

正文

请到「今天看啥」查看全文