来源:网安寻路人
发布时间:2024-02-13
一、AI治理需要解决的基本问题(这部分的另一种论述方式可以围绕着
security\safety\trustworthy
)
人工智能,作为治理的对象,存在三个基本问题。基本问题一是监管部门与开发使用人工智能的企业之间,存在高度的信息不对称。企业实践以及产品服务的技术逻辑和细节,对监管部门、用户等都是黑盒式的存在。
基本问题二是对人工智能的研究和认识都在进展过程之中,因此无论是监管部门,还是开发使用人工智能的企业,都对人工智能的认知非常局限,这进一步导致对人工智能产品服务的内在机理和逻辑认识不清,人工智能产品服务的风险识别、处置、预防非常有限,人工智能产品服务安全测评难有共识,以及人工智能开发部署运营等方面安全最佳实践的凝练总结,处于非常初期的阶段。
基本问题三是人工智能产品服务具有自演化的能力,其在部署和运营之后,具有自行升级、迭代的可能性,所以进一步带来其配套的安全管理和技术措施也需要随之升级演化的要求。
二、针对基本问题已知的政策工具或安全要求(不完全列举)
根据目前的国际标准和研究,针对上述三个基本问题,存在以下人工智能安全治理的政策工具或安全要求。
基本问题一:信息不对称
|
-
第三方模型审计。在部署强大模型之前委托第三方进行模型审计。
-
提高外部审查水平。应根据其模型的能力比例增加外部审查的水平。
-
发布对齐策略。应公布其确保系统安全和对齐的策略
-
发布内部风险评估结果。应公布内部风险评估的结果或摘要,除非这会不当地揭露专有信息或本身产生重大风险。
-
发布外部审查结果。应公布外部审查努力的结果或摘要,除非这会不当地揭露专有信息或本身产生重大风险。
-
关于治理结构的声明。应公开声明关于模型开发和部署的高风险决策的制定方式
-
发表关于AI风险的观点。应公开声明其对AGI风险和收益的看法,包括它们愿意在其发展中承担的风险水平
-
第三方治理审计。应委托第三方对其治理结构进行审计。
-
内部审计。应有内部审计团队,即评估实验室风险管理实践有效性的团队。该团队必须在组织上独立于高级管理层,并直接向董事会报告。
-
大型训练运行的预注册。应向监管部门告知或登记即将进行的特定规模以上的训练运行。
-
部署前通知监管部门。在部署强大模型前应通知监管部门。
|
基本问题二:认知局限
|
1. 红队测试。在部署强大模型之前委托外部红队进行测试。
2. 部署前风险评估。应采取广泛措施,在部署强大模型之前,识别、分析和评估风险。
3. 危险能力评估。应进行评估,以评估其模型的危险能力(例如滥用潜力、操纵能力和追求权力的行为)。
4. 安全限制。应在部署强大模型后建立适当的安全限制(例如关于谁可以使用模型、如何使用模型以及模型是否可以访问互联网的限制)。
5. 监控系统及其使用。应密切监控部署的系统,包括它们的使用方式及其对社会的影响。
6. 部署后评估。应在部署后持续评估模型的危险能力,考虑到关于模型能力的新信息及其使用方式。
7. 漏洞赏金计划。应有漏洞赏金计划,即认可并补偿报告未知漏洞和危险能力的人员。
8. KYC筛选。在授予用户使用强大模型的能力之前,应进行开展用户(KYC)筛选。
|
基本问题三:自演化能力
|
-
安全事件响应计划。应制定计划确定如何响应安全事件(例如网络攻击)。应有并实践实施紧急响应计划。这可能包括关闭系统、覆盖其输出或限制访问。
|