专栏名称: 曾鸣书院
阿里巴巴总参谋长曾鸣发起成立的知识共创社区。
目录
相关文章推荐
庞门正道  ·  黑悟空、特朗普、金星、杨笠,串起来了! ·  2 天前  
ZaomeDesign  ·  新作 | 阮大兴手作糕团 · 清河坊,杭州 ... ·  4 天前  
优秀网页设计  ·  昨日行业动态丨全球首个!阿里海外发布 ... ·  5 天前  
ZaomeDesign  ·  与 Giulio Cappellini 的一次对话 ·  6 天前  
字体设计  ·  把知识也带上车 ·  1 周前  
51好读  ›  专栏  ›  曾鸣书院

数据把人的偏念编成杀伤武器 | 书评

曾鸣书院  · 公众号  ·  · 2017-07-04 17:49

正文



书籍一直是曾鸣书院汲取养分的一种方式,我们开设“书评”栏目,希望和你们分享我们在阅读中的感悟。这里面有国外尚未被翻译的优秀作品,也有饱受争议的当红之作,当然还有一些曾鸣书院的私家读物。希望阅读可以成为我们之间的一个桥梁,在阅读中,丰富认知的厚度。


当然,“书评”栏目,也期待着和你们的互动,你们最近看过什么好书,有些什么感悟,都可以留言给我们,如果你觉得三言两语说不清楚,也可以投稿发送至:[email protected]

本期图书


Weapons of Math Destruction:How Big Data Increases Inequality And Threatens Democracy

《大规模杀伤数器:大数据如何加深不公和危害民主》

作者:Cathy O'Neil


本期作者


Nick,是曾鸣书院唯一的外国人,但常常也被调侃为“假冒老外”,耶鲁大学中文系毕业,正经“科班”出生。一脸天真无害的表情后面,是对文化的尊重,对新商业的锐利思考。语言是他的一把武器,在中美商业对照研究中,往往能杀出一条让人惊喜的血路。在“书评”栏目中,Nick想把那些还没有被翻译的好书介绍给大家。


“数据经济赖以运转的数学模型,建立在人为决策之上,这些人并非完人,容易犯错。其中许多决策背后的初衷,应该是尽善尽美,可是许多模型最后把人类的偏念、误解、成见,编写成软件系统,这些系统愈发主宰我们的生活。这些数学模型,如神怪般居心叵测,唯有数学家和计算机科学家,这专业领域的最高灵媒,才能通其奥义。此类模型的判定,无论对错,不论利害,都不容辩驳申诉,其判定结果也往往施罚于社会上最窘迫、最弱势的人,同时使得富者愈富。”——Cathy O'Neil


我相信,任何大互联网公司的员工,只要阅读这本书,都会浑身不适。



1945年,7月16日早晨5点29分,新墨西哥州索科罗县县城以南50多公里外的沙漠上,惊天动地的核爆炸横空出世。如日中天的光耀投射到周围的山脉,黄紫灰蓝多彩缤纷的光线把每一峰、每一峦,照得一清二楚。这是美国陆军“三位一体”核试,是全世界范围内头次使用核武器,这次爆炸也代表美军曼哈顿项目大功告成。曼哈顿项目中的基本科研成就,同样成就了二战以后一系列科学创新,典型如核能,实属人类科学历史上的大创举。


但是核武器的历史,众所周知。二战之后,美国和苏联拉开冷战,而比拼的核心能力是Weapons of Mass Destruction的生产和掌控。WMD,顾名思义,为大规模杀伤武器,日后也各国政府和国际组织花费了巨大精力和时间,来管控和限制大规模杀伤武器的生产和扩散。


这本说的作者,对待算法的数据的态度,犹如对待核武器:科技带来进步和突破,但是科技也助长人类原有的习气。



何为习气?作者警告我们,当下许许多多的数据模型,往往不遵循统计学规律,违背科学原理,因而害人不浅,她把最严重者称Weapons of Math Destruction,“大规模杀伤数器。”至少在美国,这样大规模杀伤数器的应用日渐盛行,已经渗透各行各业,从常年依赖数据模型的金融、保险、广告、个人征信,一直到教育、求职、选举,乃至执法与刑警的工作。


说一般人的“民生”离不开数据模型,本质上不是一定有问题,数据有可能改善我们的生活。但是作者所痛恨,是不合理、不科学的数据模型,这样的模型也应该让我们倍感警惕。潜行在我们可见的日常生活之下,在潜移默化中,导引我们生活的转变和动展,是数据和算法,是作者所言的数器。其机理,建模者不会宣示,我们必须自醒自觉。


我通常不看唱衰大数据的书。原因不是因为我那么推崇大数据,而是,大部分都没搞清楚数据是什么,数据怎么用,也不知道从何批评起,结果往往是危言耸听的长篇大论,不切实际也不解渴。作者Cathy O’Neil不一样。她是哈佛大学的数学博士,研究方向是数论和代数几何,毕业之后在MIT和Barnard大学执教过几年,然后转战金融,在DE Shaw对冲基金里做过quant。金融海啸席卷全球之后,已经厌恶金融行业的O’Neil去互联网公司做数据科学家,如今已经在教育和媒体行业中尽力普及数据知识。简言之,这作者不是外行。



而这样一位非外行要告诉我们什么道理?一言以蔽之,是“没有反馈闭环的数据模型,根本就是在耍流氓。”


什么意思?我们来看看作者对“大规模杀伤数器”的定义。


作者说,遇到某一个数据模型或者算法的时候,应该问三个问题,如果三个问题的答案都是no,很有可能在有一个大规模杀伤数器摆在你面前。(如果你还在想,“但是我日常生活中好像遇不到所谓的‘数据模型’耶。”别急,下面笔者会道破这样的谬误。)


第一个问题:即使模拟方(即参与模型的人)意识到自己的行为被数据模型所模拟、明白模型的设计目标,模型的决策逻辑是否有不透明的地方,甚至,是不是黑匣子?翻译成人话:你知不知道这个模型怎么裁判?


第一个问题会直接导致第二个问题难以回答:模型是否有悖于模拟方的权益?用人话来讲,模型是不是不公平?模型会不会产生损失,乃至害人?(“公平”这个词比较难界定,但是在作者的语言体系当中,“公平”的意思是,模型出的结果是不是符合现实?如果不符合,能不能调整?)


第三个问题,模型是否具备指数级放大的潜力?以统计学语言表述,模型能否规模化扩张?(然后就得看,这个模型能不能大规模祸害人类。)



大规模(极速扩张)、杀伤(不公平)、数器(黑匣子):这是我们现在生活中看到许许多多模型的现状。


三个问题加起来必将形成巨大的恶性循环。作者的书纵观美国人生活的方方面面,用每一章剖析另外一个生活场景,她每每得出同样的结论:现在的数据科学家,习惯用模拟的方式概括人类的行为,以群体画像推导个人行为,依此判定。这本质上没有问题,分析海量个例正是数据模型的价值所在。问题出在反馈:大部分的模型根本没有矫正的环节,如果模型的结果有偏差,系统本身无从得知,根据错误结果持续优化,最终反而变本加厉。


什么叫变本加厉?我们来看看所有国人众所深知的例子:大学排名。


笔者当年在北京,在教育行业做了一年时间,虽然没有亲手参与出国咨询或中介服务,起码对国内的留学市场略知一二。不过你也不必非常精通出国留学这个事情,至少脑子里面会有这么一个概念:看国外的大学,第一件要事是要看排名,而至少在美国,普通大众引以为权威的排名,无非是US News and World Report,美国新闻与世界报道。



(实际上,咱们别说国内,美国人看美国的大学也会这么看学府,全球广大求学群众也更为甚者。我妈在一所女子大学曾经做过很多年的招生工作,她所在的大学在我们老家的名声相当响亮,但我们必须承认,放眼全国也是上不了榜的。尽管如此, 她出国招生的时候,只要到一个新的国家见客户,人家家长开口第一个问题,无不例外定是,“咱们这所大学呀,跟哈佛怎么比?”每每都弄得母亲大人心里憋着一把辛酸泪。)


但是大家有没有想过,大学排名这玩意儿,为什么是这个组织说了算?实际上呢,是没有任何理由,纯属历史的偶然事件。O’Neil在书里写道,这一闻名全球的排行榜,最早是美国新闻与世界报道的编辑部凭空打造,排名横空出世之后,深得全球莘莘学子之莘莘欢心。


可是O’Neil对此心怀愤慨,原因在于,US News的排行是个大规模杀伤数器。


作者何以见得? US News的排行逻辑还算透明,但是问题不在此,而是“这些记者没有任何直接途径来衡量,四年的教育过程,对一位学生产生了什么样的影响,更别说是几百万几千万的学生群体。”说得具体一点,编辑部选择的指标(师生比例,录取人群SAT成绩,校方人均硬件投资金额,入学巩固率等),与他们要度量的最终结果(所谓的educational excellence,“教育质量”)相比,两者之间并无统计学关联。



一套数据模型需要回答这样的问题:一系列事项(大学指标)跟所见的结果(教育质量)之间的关系是什么,US News的模型缺乏两者之间的关联,因而违反作者第二条公平原则。然而更为甚者,US News的模型呈现明显的恶性循环。美国的大学会有意优化US News里面的指标,以提升排名,导致全国高等学府比拼资源,可是教育质量未必有所见长。“问题不在于US News的模型本身,害处在于模型的规模。单一的排行榜迫使所有人瞄准一模一样的目标,从而形成的市场容易操纵。”而US News没有反向反馈来调整自己的模型:如果一所排名很低的学校,出现所谓的“教育质量,”US News既无从感知又满不在乎,导致恶性循环免于截断。没有反馈闭环的模型,就是耍流氓。


作者提出,“自从US News排行榜盛行以来,美国的大学学费也日益飞涨,自1985年到2013年,高等教育的学费提升了500%以上,这是同期通货膨胀的四倍。”作为数论的博士,作者这句话纯属相关性的观察,不应该理解为某种因果关系的断定。但是因果的痕迹历历在目:美国众多大学校长的业绩考核中,至少一部分是US News的排名,此外,许多大学的战略规划会紧紧围绕着排行的提升。毕竟这样一个指标的优化工作,比“学生体验”等笼统考量,容易上手很多。


(说到这里,大家有没有联想到国内的高考制度?没错,作者在书中也提及中国的教育行业。至于她对此说什么,笔者就是不透露,你们自己得买书读读看。不过整体而言,她的立场客观且充满关怀。)

解析了大学排行榜的例子,我们可以分析更复杂的场景:刑警的巡逻。


最近美国警察多了一个办案利器:犯罪行为的预测模型,如PredPol(Predictive Policing,预测性刑警的简称),这些数据模型能够根据街区以往的犯罪记录预测未来哪些地方会爆发罪行。我们可以再拿出一个相关的数字:相较于百种男性,美国黑种男性被判监禁的概率高6倍、被警察杀害的概率高21倍。这种数字在美国会引起激烈争论,一方(俗称有钱人)会认为,是黑人犯罪行为多嘛。另外一方(俗称白左和有色人种)会认为,是警察在歧视。



作者的观点,两边都不靠。她坚持这些犯罪预测模型,无疑属于大规模杀伤数器的范围,而她的逻辑比上面双方的观点都可取可圈,关键在于恶性循环。犯罪行为预测的模型,导致刑警的巡逻时间分配在曾出罪行的区域,抓到更多坏人。恶性循环因而产生,毕竟这些街区与犯罪行为的相关性日益上升,美国的监狱也塞满了贫穷的罪犯。但是问题是,这些人的罪名大多数并非暴力型, 而犯罪数字的另外一种解读方式,是贫穷地区的的巡逻行为更加密集,导致逮捕行为必定增加。(在营销领域中,这个逻辑叫“漏斗效应,”毕竟警察也有KPI。)


如果犯罪预测模型的目标是“预测什么样的地方会出现暴力性犯罪行为,”这个模型的杀伤力会降低,毕竟暴力性犯罪行为足以有效矫正。可是不巧,这些模型通常不会按照犯罪类型区分。(原因或许是,模型可能做不到更精确的预测,毕竟巡逻了半天也未必会撞上很严重的罪过。)结果就是不公,通过科技的力量,大规模放大。



作者毕竟是数据科学家,她也相信数据能够改善社会,因此,她想到这样的犯罪预测模型,提出这么一个疑问:模型本身不分善恶,如果这一套模型的用处不是为了遏制犯罪行为,而是找到政府最需要投资或扶贫的街区,我们难道不会看到一种数据驱动的良性循环产生?如果这些模型的应用是疏,而不是堵,会发生什么?



笔者必须重申,作者对数据模型并不全盘否定,好的模型能够产生相当大的积极作用。可是作者一再强调,数据模型离不开人,模型的参数需要人来设计来调整,模型的目标需要人来确定,乃至模型采用的所有概念,都需要人类来解析。


譬如,本文中反复出现的“不公平。”作者如是说:“所谓的不公平,是软是湿的,难以定量。不公是抽象概念。纵使计算机的编程语言与运算逻辑突飞猛进,机器仍旧搞不定概念,机器对美的‘理解’,不外乎一种词周围的一系列相关性,‘美’跟大峡谷、海边的夕阳、Vogue时尚杂志中的梳妆秘诀等场景相关。机器在Facebook上数清点赞数、枚举好友链条,不断试图度量‘友情’,可一切终究枉然。友情的概念始终摸不清道不明,工程师不知道怎么把它编写成代码,老板也很少要求如此编程。”


在一本不那么严谨的书里头,这段话或可理解为文科生面对数理主义的浪潮无情逼近来势汹汹,发出不平之鸣,可作者不然。


作者竭力告诉我们,机器可以作出判断,但是不能定性。你给机器两个选项,“有罪”或“无罪”,机器就可以告诉你累犯被捕之后该如何判决,但对于“罪”的意涵,机器不问青红皂白。机器不能告诉你一所学校的好指标,是否称得上“高质量的教育”,机器不能告诉你一把次级抵押贷款债券中哪些债票真正值钱。


含意,定义,意与义,这永远会是人的领地,而机器不能干人的活儿,机器万万不能替人干这个活儿。确定目标函数,设计模型参数,甚至把二分法的数字、是与否的判断,跟现实事项关联在一起。。这些都是人的工作。久而久之,人和机器的分工将划清界限,人机必将协同,但是双方都不得越界。


定性的工作,很贵,很难,无法规模化。但是唯有这样的工作,才有望确保“公平”。



我虽然是一名文科生,我绝对相信数据和模型会改善社会。工业革命,给人类带来了五花八门的损害和异化,但是账本算齐之后,人类加起来终究是赚的。这次的技术革命也如此。


但是如果技术能够惠及人类的全体,万万不能仅有一群精英独享其利。但是一个科技利益终生的世界,或许仍旧遥远,至少在技术突飞猛进的今日,我们一时做不到。怎么做到,实际上,作者也不作说明,她光呼吁政府加强监管,但是如此处理远远不够。如何才能防止这些数器的杀伤,如何才能促成人类行为的正循环,我没有现成答案。但是至少作者的方法姑且值得一试:多懂得解读这些模型,监视这些模型,要求反馈,要求优化。


我们期望的科技,我们期望的世界,都是正反馈驱动,把人不断推向更高的境地。我至少希望现代科学的调优实验,最终会导出这样的结果。


-The End-


戳今日二条

查看Nick为大家

精选的本书书摘

曾鸣书院开通了个人微信号:小鸣

微信ID:zmsy-xiaoming

长按识别二维码,添加小鸣为好友


入群讨论、话题分享、实时反馈

让我们联系更紧密一些