编者按:
朱熹曾经说:“问渠哪得清如许,为有源头活水来。”在人工智能的发展大潮中,繁杂多变的现实世界无疑就是推动技术进步的源头。但由于数据不可避免地会带有人类的痕迹,它们有时也会产生一些“偏见”。如何让人工智能变得更加公平客观?
在刚刚结束的NIPS大会上,微软研究院的研究员们分享了他们对这一问题的深入思考。
人工智能已经能够帮助人们更快地输入文本和更好地拍摄照片,而在一些诸如人事招聘、刑事判决等重大决策上也开始崭露头角。有鉴于此,微软乃至整个机器学习领域的研究人员都在设法确保用于AI系统开发的数据能够反映真实世界的情况。但一切都会像我们刚刚说得一样简单吗?
一、困扰:偏见问题
微软纽约研究院的首席研究员Kate Crawford应邀在今年NIPS上做了一场题为“偏见问题”的报告,其中她重点介绍了机器学习偏见的例子,比如新闻机构ProPublica的调查揭露,法院和执法机构用于预测犯罪分子重新犯罪倾向的算法对非裔美国人存在偏见。
Crawford解释说,数据并非原本就存在于这个世上,相反,数据是人为生成的。采集数据集的人需要决定:这些数据是否能代表全体人类的行为和表征。训练数据集的过程将始终带有历史的痕迹,而历史是人类的历史,所以它们总会带有与人类相同的弱点和偏见。我们不能简单地通过提高信号或调整卷积神经网络来解决这个问题,而是需要更深刻地认识这些体系中存在的结构性不公平和偏见的历史实质。
微软纽约研究院的高级研究员、NIPS 2017程序共同主席Hanna Wallach表示,数据是世界的表征,是用来训练机器学习模型的燃料。我们经常谈论数据集,就好像它们是具有明确边界、经过清晰定义的事物,但随着社会上的机器学习越来越普及,数据集将越来越多地取自现实世界的场景,比如一些社会过程。在NIPS期间,Wallach与另外几名NIPS 2017程序共同主席一同发起了一个关于数据公平性、问责性和透明度的全新主题。
微软研究院研究员Hanna Wallach
二、思考:机器学习的核心
今年NIPS大会上有数百篇描述机器学习模型开发及所用训练数据的论文。会议所采纳的论文中,有43篇是由微软研究人员撰写或共同撰写的,题材涵盖了从对合成DNA中存储数据进行检索的最新进展到在不损害用户隐私的前提下反复收集来自用户设备的遥测数据的方法。
虽然题材林林总总,但在过去30年间,几乎所有在NIPS上发表的论文都以某种方式涉及到数据。而近年来,机器学习也早已不再局限于仅使用合成或标准数据集的纯粹学术语境,相反,它开始影响到我们生活的各个方面。
机器学习模型开始应用于解决现实世界的问题和挑战,人们越来越强烈地意识到算法对他们生活所产生的影响:从阅读哪些新闻、购买什么产品乃至能否获得贷款等大事小情。随着人们相关意识越来越强烈,大家也愈发关心这些算法究竟在做什么,以及这些数据时从何处获取的。
三、尝试:可解释的机器学习
打消人们对人工智能和机器学习顾虑的方法之一,是优先考虑透明度——让人工智能系统变得更易于解释。微软纽约研究院高级研究员Jenn Wortman Vaughan在NIPS上发表演讲时介绍了一项她和同事们正在进行的大型实验,这些实验旨在了解哪些因素能够让机器学习模型可以被专家以外的人群所理解。他们的想法是进一步提升算法预测的透明度,让决策者理解系统为什么会做出特定的预测。例如,模型特征或输入的数量是否会影响一个人捕获模型出错情况的能力?如果能看清某个模型如何进行预测,而不是将其置于黑箱内,人们是否会更信任这个模型?他们希望可以通过这项研究来进一步开发能够帮助决策者了解用于训练模型的数据及模型预测的内在不确定性的工具。
微软研究院研究员
Jenn Wortman Vaughan
微软雷德蒙研究院的杰出工程师Patrice Simard认为可解释机器学习领域应该从计算机编程中得到启发:在计算机编程中,人们掌握了如何通过简单而容易理解的步骤,将大问题分解为更简单的问题。但是在机器学习领域,我们却完全落后了,甚至还没有建立基础设施。
为了迎头赶上,Simard提倡将思路转向他所谓的“机器教育”——在解决问题时,设法让机器寻找特征,而不是在堆积如山的数据中寻找模式。他解释说,与其用数百万张被标记为“好车”与“坏车”的图片来训练一个用于汽车购买决策的机器学习模型,不如教会模型理解燃油经济性和碰撞测试安全性等特征。
四、探索:研究人员多样性
除了数据偏见问题,研究人员也在关注另一个与此相关的问题:AI研究人员群体是否有足够的多样性。研究表明,更加多样化的团队会选择更加多样化的问题来研究,并且会产生更有创新性的解决方案。
在某些类型的科学学科中,人们只想发现某个特定真相,至于谁发现了真相并不重要。然而,人工智能不完全是这样。研究人员要自己界定想要解决什么样的问题,如果研究人员团队没有多样性,那么就有可能仅仅解决了一小撮同类群体认为重要的一系列狭隘的问题,而不是世界上许多人所共同面临的问题。
而防止意外偏见蔓延到AI系统的措施之一就是鼓励该领域的多样性,确保人们有关AI训练的知识均匀地分布在世界各地,跨越性别和种族。
早在2005年,Wallach第四次参加NIPS会议时,她就开始关注研究人员多样性的问题。她后来和Vaughan等人共同创立了“机器学习中的女性”研究小组,迄今已有12个年头,并且自2008年以来一直与NIPS同地举办研讨会,今年有超过650名女性研究员参加。
Wallach应邀在“机器学习中的女性研讨会”上发表演讲,介绍了她如何在社会科学领域内应用机器学习以衡量“社区成员”或“讨论主题”等不可观测的理论构建。她说:“无论何时,在特定社会背景之下的数据处理都必须考虑伦理、公平、问责、透明和隐私等问题。”