中国信息通信研究院与腾讯研究院AI联合课题组编译
蔡雄山 腾讯研究院法律研究中心副主任、首席研究员
曹建峰 腾讯研究院研究员
李金磊 腾讯研究院助理研究员
日前,国际互联网协会(ISOC)发布《人工智能与机器学习:政策文件》,分析当前的有限人工智能(narrow AI)发展和应用中面临的问题和挑战,并提出指导原则和建议。
近年来,人工智能(artificial intelligence,缩写为AI)受到越来越多的关注。互联网使创新成为可能,也让AI更贴近我们的日常生活。这些进步连同科学技术对社会经济和伦理的潜在影响,使得人工智能成为许多当代辩论的前沿话题。产业对AI的投资在迅速增长,而且各国政府在尝试了解技术对公民的意义。
“大数据”的收集和物联网(IoT)的扩张,为新的AI应用和服务的发展提供了一个良好的环境。基于AI的应用已经在医疗诊断、针对性治疗、交通运输,公共安全、服务机器人、教育和娱乐等领域中得到体现,而且在未来几年AI还将被应用于更多领域。与互联网一起,AI改变了我们体验世界的方式,并有潜力成为经济增长的新引擎。
虽然人工智能总是与科幻小说相联系,但是实际上人工智能今天已经有很多用途,例如:
(1)电子邮件过滤:电子邮件服务使用人工智能过滤传入的电子邮件。用户可以通过将电子邮件标记为“垃圾邮件”来训练他们的垃圾邮件过滤器。
(2)个性化服务(personalization):在线服务使用人工智能来个性化定制用户的体验。例如亚马逊或Netflix这样的服务商可以从用户过去的购买行为和其他用户的购买行为中“学习”,为用户准确推荐相关内容。
(3)欺诈检测:银行使用人工智能来确定用户的账户是否有异常的活动发生。例如国外交易等意外活动,可能会被算法标记出来。
(4)客户服务:利用人工智能理解自然语言的聊天机器人(chatbots)被许多公司用来以口头和书面形式回答常见问题。
互联网协会(The Internet Society)认识到,了解与AI相关的机会和挑战对于建设一个为人们所信任的互联网至关重要。本政策文件介绍了关于AI的关键问题,包括一系列指导原则和建议,以帮助制定健全的政策决策。本政策文件特别关注机器学习,这是实现AI的一个具体路径,也是AI最近发展背后的驱动力。
人工智能(AI)传统上是指可以学习、推理、计划、感知和处理自然语言的人造的类人智能(human-like intelligence)。
人工智能被进一步定义为“有限AI(narrow AI)”或“通用AI(general AI)”。有限AI是指在某一领域(如语言翻译)执行特定任务的AI,这也是当前我们能够接触到的AI。通用AI目前只是假设,尚未实现,并且不受领域约束,在所有领域都可以学习并执行任务。一般AI不在本文的讨论范围之内。本文重点介绍有限AI的进展,特别是关于计算机科学领域中被称为机器学习的新算法和模型的发展。
算法是用于解决问题的一系列指令(instructions)。程序员开发的用于指导计算机进行新任务的算法是我们今天看到的先进数字世界的基础。计算机算法根据某些指令和规则,将大量数据组织到信息和服务中。这是一个需要了解的重要概念,因为在机器学习中,是学习算法(learning algorithms)创建了规则,而不是程序员。
机器学习不是一步一步地对计算机编程,它向计算机发出指令,允许计算机从数据中学习,而不需要程序员做出新的分步指令。这意味着计算机可以用于无法手动编程的、新的、复杂的任务,例如针对视觉障碍者的照片识别应用或者将图片翻译成口头表达。
机器学习的基本过程是给学习算法提供训练数据。然后,学习算法基于数据的推论生成一组新的规则。这本质上就是生成一种新的算法,称之为机器学习模型。通过使用不同的训练数据,相同的学习算法可以生成不同的模型。例如,可以使用相同类型的学习算法来教授计算机如何翻译语言或预测股票市场。
从数据中推理出新的指令是机器学习的核心优势。它还突出了数据的关键作用:用于训练算法的可用数据越多,算法学习到的就越多。事实上,AI的许多最新进展并不是由于学习算法的激进创新,而是现在积累了大量的可用数据。
虽然机器学习模型可以是应用不同技术的混合(mix),但是学习的方法通常可以分为三种一般类型:
(1)监督学习(supervised learning):给学习算法提供标记的(labeled)数据和所需的输出。例如,标记为“狗”的狗的照片将有助于算法识别用于分类狗的图片的规则。
(2)无监督学习(unsupervised learning):给学习算法提供的数据是未标记的,并且要求算法识别输入数据中的模式。例如,在电子商务网站的推荐系统中,学习算法发现通常一起购买的类似商品。
(3)强化学习(reinforcement learning):该算法与动态环境相互作用,在奖励和惩罚方面提供反馈。例如,自动驾驶汽车留在路上时就会被奖励。
机器学习并不是新鲜事物。许多在业内引起新的兴趣的学习算法(例如神经网络),都是基于数十年的研究。目前AI和机器学习的增长与三个重要领域的发展有关:
(1)数据可用性:超过30亿人在线,约170亿个连接的设备或传感器,产生了大量数据,而数据存储成本的降低,使得这些数据易于使用。机器学习可以将这些庞大的数据用于学习算法的训练,开发新规则来执行日益复杂的任务。
(2)计算能力:强大的计算机和通过互联网连接远程处理能力的能力使得可以处理大量数据的机器学习技术成为可能。
(3)算法创新:新的机器学习技术,特别是分层神经网络(layered neural networks),也被称为“深度学习(deep learning)”,启发了新的服务,也刺激了对人工智能这一领域其他方面的投资和研究。
随着机器学习算法在越来越多的产品和服务中的应用,在面对人工智能时必须考虑一些重要因素,尤其是在人们对互联网的信任这一大背景下:
(1)社会经济影响:AI的新功能和服务将会产生重大的社会经济影响。机器展示出高级认知技能、处理自然语言、学习、计划和感知的能力,使得新的任务可以由智能系统执行,有时甚至比人类更加成功。AI的新应用可以为更有效的医疗保健、更安全的行业和服务提供激动人心的机会,大规模提高社会生产力。
(2)透明度、偏见和责任:AI做出的决策可能会对人们的生活产生重要的影响。AI可能歧视某些个人或由于带有偏见的训练数据而造成错误。AI的决策往往难以理解,使得偏见的解决和追责问题变得更加困难。
(3)数据的新用途:机器学习算法在大量数据(通常被称为“大数据”)中分析和验证模型已经被证明是十分高效的。大数据用于训练学习算法以提高其性能。这会增加对数据的需求,鼓励数据收集,并提高了以牺牲用户隐私为代价来过度分享(oversharing)信息的风险。
(4)安全和可靠性(security and safety):人工智能的进步及其使用也将带来新的安全和可靠性挑战,包括AI能动者(AI agent)的不可预测的和有害的行为,也包括恶意行为者的对抗学习(adversarial learning)。
(5)伦理:人工智能做出的选择可能是算法的逻辑结果,但是可能会被认为是不道德的(unethical),应当强调将道德考虑融入到AI系统和算法中的重要性。
(6)新生态系统:像移动互联网的一样,人工智能能够带来新的应用、服务以及网络交互的新方式。例如,通过语音和智能代理(speech and smart agents),这可能给互联网的开放与访问带来新的挑战。
AI发展中利益相关方所面临的挑战来源于多种因素,包括:
(1)决策:透明度和“可解释性(interpretability)”。人工智能执行的任务从自动驾驶汽车到管理保险理赔,理解人工智能的决策就变得至关重要。但算法决策的透明度有时受到企业或国家秘密或技术素养等方面的限制,而机器学习使得这一问题进一步复杂化。因为机器学习模型的内部决策逻辑并不总是可以被理解的,即使对于程序员也是如此。
虽然学习算法可能是公开和透明的,但它产生的模型可能不是。这对机器学习系统的开发有重要的意义,但更重要的是它的安全部署和责任问题。有必要了解为什么自驾车选择采取具体行动,不仅要确保技术的有效性,而且还要在发生事故的情况下确定责任。
(2)数据质量和偏见:在机器学习中,该模型的算法好坏与其训练所使用的数据挂钩,称为“垃圾进,垃圾出(garbage in, garbage out)”。这意味着有偏见的数据将导致带有偏见的决策。例如,在美国的一些地区,使用“风险评估”的算法来确定犯罪人未来再犯的风险。如果使用了带有种族偏见的数据对这些算法进行训练,那么这些算法可能将更高的风险分配给某一种族的个人。可靠的数据是至关重要的,但是对训练数据的巨大需求鼓励数据收集。这与AI识别新模型或重新识别匿名信息的能力相结合,可能会给用户的基本权利带来风险,因为它使得新类型的高级画像成为可能,从而可能对特定个体或群体造成歧视。
由于难以理解机器学习模型如何解决问题,特别是与大量输入的数据相结合时,偏见最小化的问题也变得复杂。因此,可能难以确定导致歧视问题出现的具体数据从而进行调整。如果人们觉得一个系统有偏见,就会破坏对技术的信心。
(3)安全和可靠性(Security and safety):随着AI能动者学习并与其环境相互作用,其安全部署问题面临许多挑战。这些挑战可能来源于不可预测的、有害的行为,包括AI能动者对其行为影响的漠不关心。一个例子是“奖励黑客”的风险,AI能动者找到一种可以使其更容易达到目标的方式,但这种方式与设计者的原有意图并不相符,例如清洁机器人清理地毯下的污垢。
AI能动者的安全性也可能受到其如何从环境中学习的限制。在强化学习中,这源于所谓的探索/开发困境(exploration/exploit dilemma)。这意味着AI能动者可能会偏离解决问题的成功策略,而去探索能够带来更高回报的其他选项。这可能会产生毁灭性的后果,例如一辆自动驾驶汽车可能通过选择错误的道路来探索这样做所带来的回报。
还有一个风险是自动系统被恶意的行为者掌控,试图操纵算法。微软在Twitter上部署的聊天机器人“Tay”就是一个很好的例子。本意是让其学习与其他用户互动。但是,通过协调的攻击行为,Twitter的用户操纵了它,对其进行培训,让其从事种族主义行为。其他例子如所谓的“对抗学习”包括试图影响垃圾邮件过滤器或异常网络流量检测系统的训练数据的攻击,从而误导学习算法进行后续开发。
操纵训练数据的能力,或者利用AI能动者的行为,突出关于机器学习模型的透明度问题。训练数据和所涉技术的详细信息的披露,可能会使AI能动者面临对抗学习。在关于算法决策透明度的讨论中,必须考虑安全问题。
(4)责任问题:学习算法的优点和高效是基于其无需一步一步的指令就能生成规则的能力。虽然这种技术已经被证明能够完成诸如面部识别和解释自然语音等复杂的任务,但是这也是引发担忧的问题之一。
当一台机器自己学习的时候,程序员对其的控制能力减弱。虽然非机器学习的算法可能反映偏见,但算法特定输出背后的推理是可以解释的。而机器学习并不是这么简单。
无法解释为什么做出某项具体行为,使责任的承担成为一个问题。如前所述,如果从事种族主义行为的聊天人Tay违反了一项法律(例如发布犯罪威胁),开发Tay的程序员会因此负责吗?还是那些对Tay从事对抗性训练的Twitter用户负责呢?
在大多数国家,程序员对其算法缺陷产生的损害概不负责。这一规则很重要,如果需要程序员负责,那么他们可能因此不愿意创新。然而,随着物联网技术的进步,责任承担问题可能会变得更加紧迫。由于算法中的缺陷导致更大的损害,制造商、运营商以及程序员都需要厘清各自的责任。对于AI来说,训练数据比算法本身更容易出现问题。由于AI算法操作背后的推理不为人所知,AI使得本已经十分困难的软件责任问题进一步复杂化。而且与许多领域一样,责任可能推动着变革。
(5)社会和经济影响:据预测,人工智能技术将通过提高生产率带来经济变化。这包括能够执行新任务的机器,例如自动驾驶汽车、高级机器人或智能助手等来帮助人们的日常生活。然而,如何分配技术进步带来的好处,以及利益相关方如何采取行动,将会对劳动力市场和整个社会带来截然不同的结果。
对于消费者而言,自动化可能意味着更高的效率和更便宜的产品。人工智能也将创造新的工作或增加对某些现有的工作的需求,但这也意味着目前的一些工作可能会在未来的十到二十年内自动化。有人预测,在美国,高达47%的工作可以实现自动化。非技术的低薪工作更有可能被自动化,但AI也将影响广泛依赖常规认知任务的高技能工作。取决于净效应(net-effect),这可能导致较高程度的结构性失业。
在全球范围内,自动化也可能影响地理分工。在过去几十年中,一些经济部门的生产和服务已经从发达经济体转向新兴经济体,主要是由于这些新兴经济体的劳动力或材料成本相对较低。这些变化推动了世界上新兴经济体的快速发展,并支持日益壮大的全球中产阶级的队伍。但是,随着AI技术的出现,这些激励措施可能会减少。一些公司可能会选择在当地将其一些业务自动化,而不再是将这些业务外包出去。
AI和自动化对劳动力市场和地域分工的影响不可能是均等的。例如,如果社会的一小部分从AI获得经济利益,同时让许多人失去工作,最终可能会导致阶级分裂。不平等也可能导致技术上的不信任,尤其是对于AI技术和互联网,可能会被认为是导致这种不平等的罪魁祸首。
(6)治理:参与治理人工智能的机构、程序和组织仍处于早期阶段。在很大程度上,生态系统与涉及互联网治理和政策的主题相重叠。隐私和数据法是一个很好的例子。
公共利益相关方的现有努力,包括联合国致命性自主武器系统专家组(LAWS)以及欧盟最近的《一般数据保护条例(GDPR)》和算法决策的“解释权”等规定。这些进程如何发展以及如何采用或解释相似的规定,将对AI技术的持续发展产生重大影响。在监管领域确保连贯一致的方法很重要,确保所有社区都分享到互联网及先关技术带来的好处。
目前治理工作的核心是人工智能及其实施的伦理层面的问题。例如,电气和电子工程师协会(IEEE)发布了一份关于人工智能合伦理设计的新报告,是确保在AI系统设计中融入伦理考虑的更广泛的举措的一部分。同样地,加利福尼亚州的一家非营利性研究公司Open AI已经收到了超过10亿美元的承诺资金,旨在支持AI安全开发的研究和活动。私营企业领域的其他举措包括由亚马逊、谷歌、Facebook、IBM、苹果和微软成立的“AI合作伙伴关系(Partnership on AI)”,旨在提高公众对人工智能技术(AI)的理解,并制定关于人工智能领域遇到的挑战和机遇的最佳措施。
尽管人工智能领域是复杂的,但是包括政府、行业和用户在内的利益相关方,都应该发挥作用来确定治理人工智能的最佳方法。从基于市场的方法到监管,所有的利益相关方都应该在未来几年内参与到人工智能技术的经济和社会影响的管理中来。此外,人工智能带来的社会影响不能仅仅通过管理人工智能技术就得到充分的缓解,而且需要管理其所带来的影响。
互联网协会制定了以下原则和建议,我们认为是互联网的核心能力支撑着这些价值。虽然在互联网服务中部署人工智能并不新鲜,但目前的趋势表明,AI是互联网未来发展和使用中日益重要的因素。因此,这些指导原则和建议是引导讨论持续进行的第一次尝试。此外,虽然本文着重关注于围绕AI的具体挑战,但是AI发展与物联网(IoT)的扩张之间的强大的相互依存关系,需要我们深入了解物联网设备之间的互操作性(interoperability)与安全性。
1.AI部署和设计中的伦理考虑
原则:AI系统设计人员和构建者需要将以用户为中心的方法应用于AI技术。他们在建造AI系统时需要考虑他们的集体责任,确保人工智能系统不会对互联网和互联网用户造成安全隐患。
建议:
(1)采用道德标准:在人工智能设计中遵循伦理考虑的原则和标准,引导研究人员和AI行业向前发展。
(2)在创新政策中促进伦理考虑:创新政策应当遵守道德标准,作为资金支持等政策的先决条件。
2.确保AI系统的“可解释性(Interpretability)”
原则:AI能动者做出的决策需要能够被理解,特别在这些决定对公共安全有影响或者导致歧视性做法的情况下。
建议:
(1)确保算法决策的人类可解释性:AI系统的设计最低要求是,设计人员可以为AI能动者的行为负责。一些对公共安全能够造成潜在严重影响的系统应当具备在发生事故时提供信息的功能。
(2)授权用户:使用人工智能的服务提供商需要赋予用户要求和接受关于人工智能如何决策的基本解释的能力。
3.公共赋权
原则:公众能够了解基于AI的相关服务及其运作方式是确保其对AI技术信任的关键。
建议:
(1)“算法素养(Algorithmic Literacy)”必须是一项基本技能:无论是对社交媒体平台信息的纠正或者是自动驾驶汽车,用户需要基本了解算法的作用及自主决策。这种基本技能在制定技术应用的社会规范方面也将是重要的。例如,确定可能不适合委托给AI去做决策的事项。
(2)向公众提供信息:尽管由于安全隐患的原因,将某项服务的机器学习技术和训练数据做到完全透明并不可取,但是应向公众提供足够的信息,使人们有可能质疑算法决策结果的正确与否。
4.负责任的部署
原则:AI能动者自主行动的能力,以及无需人类指导随着时间的推移而调整其行为的能力,要求在部署AI技术之前进行重大的安全检查。
建议:
(1)人类必须能够控制:任何自主系统都必须允许人类中断其活动或关闭系统(off-switch)。还可能需要对AI系统设计中的新决策策略进行人工检查,尤其是对人类生命和安全风险很大的决策。
(2)使安全成为优先事项:任何自主系统的部署都需要广泛的事先测试,以确保AI能动者与其环境(数字或实体)的交互是安全的,并且功能正常。在自主系统在运行过程中需要监控,并根据需要进行更新或更正。
(3)隐私是关键:AI系统必须对数据负责。AI系统应当只使用它们所需要的数据,并在不再需要某些数据时将其删除(“数据最小化”)。应当对传输和储存的数据进行加密,并对授权访问数据的人员进行限制(“访问控制”)。AI系统应当根据隐私和个人数据法律和最佳的实践做法去收集、使用、共享和存储数据。
(4)采取行动前要思考:在为AI系统提供的指令和数据之前,应当仔细思考。AI系统训练所使用的数据不应当是有偏见的、不准确的、不完整或误导性的数据。
(5)确保AI系统之间的安全连接:连接到互联网的人工智能系统应当是安全的,这样做不仅仅是为了保护AI系统本身,同时还可以保护互联网免遭故障或者恶意软件感染的AI系统,这些系统可能成为下一代僵尸网络。应当采用高标准的设备、系统和网络安全。
(6)负责任的披露:真诚的安全研究人员应当能够负责任地测试AI系统的安全性,而不用担心起诉或其他法律诉讼。与此同时,研究人员和其他人员发现的安全漏洞或者其他设计上的缺陷应当负责任地向能够解决这些安全漏洞和缺陷的人披露他们的发现。
5.确保责任:
原则:当人类被AI能动者的决策所取代时,必须确保法律责任。
建议:
(1)确保法律确定性:各国政府应确保现行法律和政策适用于算法决策和自治系统应用的法律确定性,确保可预测的法律环境。这包括与所有学科的专家合作,找出潜在的差距并进行法律场景预测。
(2)将用户放在第一位:决策者需要确保适用于AI系统及其应用的任何法律将用户的利益置于中心位置。这必须包括赋予用户挑战对自身的利益产生不利影响的自主决策的能力。
(3)预先的责任分配:政府需要与所有的利益相关方合作,做出一些困难的决定,即在AI系统出现问题的时候,谁将承担责任,以及产生的损失如何弥补。
6.社会和经济影响
原则:利益相关方应构建一个AI为所有人提供社会经济机会的环境。
建议:
所有的利益相关方应该进行持续的对话,以确定抓住人工智能广泛的社会经济机会所需的战略措施,同时减轻其潜在的负面影响。一项对话可以解决如教育改革,普遍收入和对社会服务的审查等问题。
7.开放治理
原则:社会、政府、私营部门或学术界以及科技行业等各利益相关方加入共同治理AI的能力,对其安全部署至关重要。
建议:
促进多方利益相关方的治理:与AI治理有关的组织、机构和进程需要采取开放、透明和包容的方式。应当基于四个关键属性:包容性和透明度;集体责任;有效决策和实施;通过分布式和可互操作的治理进行协作。