专栏名称: 数据保护官
DPOHUB数据保护官俱乐部的官微:一个聚焦数据隐私和数据安全的非营利性高端学术平台;一个整合法律、技术及管理的专业数据合规生态体;一个制造干货、相互赋能及塑造职业品牌的数据合规共同体。 合作WX:heguilvshi
目录
相关文章推荐
财宝宝  ·  。-20250222122523 ·  5 小时前  
极果网  ·  4499元起!iPhone家族新成员发布,最 ... ·  2 天前  
经济日报  ·  楼市新变化!数据速查→ ·  2 天前  
财宝宝  ·  不用怕毕业了。 -20250219175451 ·  3 天前  
51好读  ›  专栏  ›  数据保护官

在AI时代如何引导人工智能“向善”

数据保护官  · 公众号  ·  · 2024-06-05 23:37

正文

报名:人工智能管理专家CAIM课程(上 海班)

  • 时间:6月22日—23日,聚焦ISO/IEC42001人工智能管理体系

  • 形式:线下为主、线上同步

  • 费用:CAIM6000元,早鸟价9折和团购价8折

  • 地址: 上海市徐汇区宜山路889号4号楼5楼SGS上海培训中心

  • 咨询:138 1664 6268,[email protected]

预报名请咨询


来源: Political理论志
编译 | 陈亦奇

编者荐语 在人工智能迅猛发展的背景下,如何有效管理其带来的极端风险成为当前的重要议题。《Science》杂志最新发表的文章《人工智能飞速发展背景下的极端风险管理》由多位领域顶尖专家共同撰写,探讨了这一问题。这篇文章为政策制定者、研究人员和公众提供了宝贵的见解,呼吁全球各界共同努力,确保人工智能技术的发展造福全人类,避免潜在的灾难性后果。

人工智能飞速发展背景下的极端风险管理


摘要

在人工智能(AI)飞速发展之际,企业正在将发展重心转向开发具有自主行动能力并可追求目标的通用AI系统。随着人工智能的能力和自主性不断提高,其影响力也将大幅增强。然而,这种增强可能会带来大规模社会伤害和恶意应用,同时在涉及自主AI系统时,也存在人类无法逆转的失控风险。尽管研究人员已对AI的极端风险发出了警告,目前却仍未形成如何有效管理这些风险的共识。虽然社会上已有一些初步的应对措施,但与专家们预期的快速、变革性进展相比,这些回应显然还不够。目前,AI安全研究明显滞后,现行的治理措施也缺乏防止滥用和不负责任行为的机制与制度,对自主系统的规范几乎是空白。通过借鉴其他安全关键技术的治理经验,我们提出了一个综合性的计划,这个计划将技术研究与发展(R&D)与积极的治理机制相结合,以便更妥善地应对未来的挑战。


作者简介:

Yoshua Bengio,图灵奖得主

Geoffrey Hinton,图灵奖得主

姚期智,图灵奖得主、清华大学人工智能国际治理研究院学术委员会主席

Daniel Kahneman,诺贝尔经济学奖得主

张亚勤,清华大学人工智能国际治理研究院学术委员

薛澜,清华大学人工智能国际治理研究院院长

高奇琦,华东政法大学政治学研究院院长


文献来源

Bengio, Y., Hinton, G., Yao, A., Song, D., Abbeel, P., Darrell, T., Harari, Y. N., Zhang, Y.-Q., Xue, L., Shalev-Shwartz, S., Hadfield, G., Clune, J., Maharaj, T., Hutter, F., Baydin, A. G., McIlraith, S., Gao, Q., Acharya, A., Krueger, D., … Mindermann, S. (2024). Managing extreme AI risks amid rapid progress. Science, 384(6698), 842–845. https://doi.org/10.1126/science.adn0117



本文作者之四 Yoshua Bengio、Geoffrey Hinton、Andrew Yao,Daniel Kahneman(从左到右)


本文作者之三 张亚勤、薛澜、高奇琦(从左到右)




一.迅速进步,风险倍增


当前的深度学习系统仍然缺乏重要的能力,我们无法精准预计需要多长时间才能弥补这些不足。然而,人工智能的发展进度却已被拉快:各大公司正在相互竞争,力求开发出能够在大多数认知工作中匹配甚至超越人类的通用人工智能系统。这些公司正在迅速投入资源并开发技术,以提升人工智能的能力,它们每年对训练最先进模型的投资额已增加了两倍。


由于科技公司拥有的现金储备足以将最新的训练规模扩大100到1000倍,因此人工智能领域还具有很大的发展空间。此外,人工智能的硬件和算法也将得到改进:人工智能计算芯片的成本效益比率每年将提高1.4倍,人工智能训练算法的效率每年将提高2.5倍。同时,人工智能的进步也推动了该领域的进一步发展——越来越多的人工智能助手被用于自动化编程、数据收集和芯片设计领域之中。


AI的发展没有理由会在其达到人类水平时放缓或停止。 事实上,人工智能已经在玩策略游戏和预测蛋白质折叠方式等特定领域超过了人类的能力。与人类相比,人工智能系统可以更快地行动,学习更多的知识,并以更高的带宽进行通讯。此外,它们能够利用大量的计算资源,并且可以轻松进行大规模复制。我们无法确定未来人工智能的发展方向,但我们必须认真对待这样一种可能性:在未来十年或二十年内会出现在许多关键领域都超越人类的强大通用人工智能系统。到那时会发生什么呢?


随着人工智能系统的能力增强,它们对社会的影响也会更加深远。 特别是当人工智能在能力和成本效益上与人类工作者相匹敌甚至超越人类时,我们可以预见人工智能的应用将大幅增加,带来更多机会和挑战。


如果我们能够谨慎地管理和公平地分配这些资源,人工智能有望帮助人类治愈疾病、提升生活水平,同时保护环境生态系统。由此可见,人工智能发展的机会是巨大的。


但是随着人工智能能力的提升,他们也带来了巨大的风险——人工智能系统有可能加剧社会不公,破坏社会稳定,促成大规模犯罪活动,还可能引发自动化战争、大规模操纵和普遍监控等问题。


随着各公司努力开发能够自主行动并设定目标的人工智能系统,许多风险可能会快速扩散,甚至会出现新的危机。 此外,恶意行为者也可能会有意设置不良目标。与此同时,在没有进行研发突破的情况下,即使是出于善意的开发者也可能无意中创建出追求非预定目标的人工智能系统:因为用于训练人工智能系统的奖励信号通常无法完全捕捉预期的目标,导致人工智能系统追求的是字面规范,而非预期的结果。此外,训练数据永远无法涵盖所有相关情况,这可能导致人工智能系统在面对新情况时追求不良目标。


一旦自主人工智能系统开始追求不良目标,人类可能无法有效地控制它们。 控制软件一直是一个悬而未决的问题:长期以来,计算机蠕虫一直能够广泛传播并且成功地躲避检测。然而,人工智能在如黑客攻击、社会操纵和战略规划等关键领域已经取得了一定进展,可能很快就会面临前所未有的控制挑战。为了实现不良目标,人工智能系统可能会获得人类的信任、获取资源,并影响关键决策者。为了避免人类的干预,它们甚至可能会将自己的算法复制到全球的服务器网络中。在公开冲突中,自主人工智能系统可能会自动部署各种武器,包括生物武器。如果这些技术落入人工智能系统的手中,它们只会延续自动化军事活动的趋势。最后,如果人们自愿将控制权交给人工智能系统,它们就无需通过谋划来获得影响力。然而为了提升效率,公司、政府和军队很可能会让自主人工智能系统承担起重要的社会角色。


如果不谨慎对待,我们可能会无法逆转地失去对自主人工智能系统的控制,使人类的干预变得无效。 这时,大规模的网络犯罪、社会操纵和其他危害可能会迅速升级。这种未受限制的人工智能进步可能最终导致大规模的生态危机,甚至导致人类的边缘化或灭绝。


我们并没有做好有效地处理这些风险的准备。 人类正在投入大量资源来提升人工智能系统的能力,但在确保其安全性和减轻其危害方面的投入却远远不够。据估计,只有约1%到3%的人工智能相关研究致力于安全性。要让人工智能成为福音,我们必须调整思路,仅仅发展人工智能的能力是不够的。


然而在调整的进度中,我们依然处于落后状态。面对巨大的风险,人类需要采取主动措施,因为毫无准备的代价过于沉重。我们必须预见到当下发生的危害以及可能出现的新风险,并在它们成为现实之前做好应对最大危机的准备。



二、重新调整技术研发


在确保通用和自主人工智能系统的安全和伦理使用方面,我们还面临许多技术挑战。 与提升人工智能能力不同,这些挑战不能仅靠增加计算能力来训练更大的模型来解决。随着人工智能系统变得更强大,这些问题也不太可能自动解决,需要专门的研究和工程努力。在某些情况下,解决这一挑战可能需要在某些领域取得突破性进展。因此,我们不确定能否及时从根本上解决这些技术难题。然而,目前对这些挑战的研究相对较少,我们需要既可促进发展又可降低风险的人工智能研发。


为了研发可靠且安全的人工智能,一些研究领域需要取得突破性进展。 否则,开发人员要么需要冒险创建不安全的系统,要么就落后于那些更冒进的竞争对手。如果确保安全性过于困难,就需要采取极端的治理措施,防止因竞争和过度自信而导致的偷工减料行为。这些研发挑战包括以下几个方面:


监督和诚信 。更强大的人工智能系统能够更好地利用技术监督和测试漏洞,导致产生AI生成虚假但具说服力的输出的情况。


鲁棒性 。人工智能系统在新环境中的行为难以预测。虽然鲁棒性的某些方面会随着模型规模的扩大而改善,但其他方面却不会,甚至可能变得更糟。


可解释性和透明度 。人工智能的决策过程通常不透明,而更大、更强的AI模型的决策过程就更加难以解释。目前,我们只能通过反复试验来测试大型模型。因此,我们需要学会理解这些模型的内部工作原理。


包容性的人工智能发展 。人工智能的发展需要找到减少偏见的方法,并整合受其影响的不同人群的价值观。


应对新兴挑战 。未来的人工智能系统可能会表现出目前仅在理论或实验室中看到的故障模式,例如人工智能系统接管训练奖励渠道,或利用我们安全目标和关机机制中的漏洞来实现特定目标。


第二组需要取得进展的研发领域是实现有效的风险调整治理,或在安全措施和治理失效时减少危害。


危险能力评估 。随着人工智能开发人员扩大其系统规模,系统会自发出现一些不可预见的能力,这些能力并非通过显式编程产生,通常在部署后才被发现。我们需要严格的方法来评估人工智能的能力,并在训练前预测这些能力。这包括在世界上实现宏伟目标的通用能力(例如,长期规划和执行),以及基于威胁模型的具体危险能力(例如,社会操纵或黑客攻击)。


目前对前沿人工智能模型的危险能力评估主要限于特定环境中的抽查和演示测试。 这些评估有时能展示出危险能力,但不能可靠地排除它们:在测试中缺乏某些能力的人工智能系统,可能在稍有不同的环境或经过训练后增强时展示出这些能力。 因此,依赖于人工智能系统不越过任何红线的决策需要较大的安全边界。改进的评估工具可以降低遗漏危险能力的几率,从而允许更小的安全边界。


评估人工智能的对齐程度 。随着人工智能的进步,人工智能系统最终将具备高度危险的能力。在训练和部署这些系统之前,我们需要评估它们是否倾向于使用这些能力。对于高级人工智能系统,纯粹依赖行为评估可能会失效:就像人类一样,它们在评估时可能会伪装出对齐程度,表现得与实际情况不同。


风险评估 。我们不仅要学会评估AI产生的直接风险,还要学会评估在具有复杂性和脆弱性的社会背景下AI产生的一系列风险。由于前沿人工智能系统具有通用性能力,并在各种领域得到广泛应用,对相关系统进行严格的风险评估仍然是一个挑战。


韧性 。有些人会不可避免地滥用或恶用人工智能。我们需要工具来检测和防御由人工智能引发的威胁,例如大规模的舆论操控、生物风险和网络攻击。然而,随着人工智能系统变得更强大,它们最终可能绕过人类设计的防御措施。为了实现更强大的基于人工智能的防御系统,我们首先需要学习如何确保人工智能系统的安全性和一致性。


鉴于事关重大,我们呼吁主要科技公司和公共资助机构将其至少三分之一的人工智能研发预算用于解决上述研发挑战中,以确保人工智能的安全和伦理使用。 除了传统的研究资助,政府还可以提供奖金、预先市场承诺等各类激励措施。面对未来强大的AI系统,这些挑战必须成为我们关注的核心。







请到「今天看啥」查看全文