要点:
1.如何评估并证明一个人工智能模型是否匿名?
2.是否合法利益可以作为训练或使用人工智能模型的法律依据?
3.如果人工智能模型是用非法处理的个人数据训练的,会发生什么?
EDPB关于AI模型的意见:GDPR基本原则支持负责任的AI
布鲁塞尔,12月18日 - 欧洲数据保护委员会(EDPB)采纳了一项关于使用个人数据开发和部署人工智能(AI)模型的意见。这项意见审视了
1)何时以及如何将AI模型视为匿名
2)是否可以以及如何将合法利益用作开发或使用AI模型的法律依据,
以及
3)如果AI模型是使用非法处理的个人数据开发的,会发生什么。
它还考虑了第一方(译者注:直接收集)和第三方(译者注:间接收集)数据的使用。
这项意见是由爱尔兰数据保护局(DPA)请求发出的,旨在寻求全欧洲范围内的监管协调。为了收集这项涉及快速发展技术对社会产生重要影响的意见,EDPB组织了一次利益相关者活动,并与欧盟AI办公室进行了交流。
EDPB主席Talus表示:“AI技术可能为不同行业和生活领域带来许多机会和好处。我们需要确保这些创新在道德、安全的方式下进行,并且使每个人都受益。EDPB希望通过确保个人数据得到保护,并充分尊重通用数据保护条例(GDPR),来支持负责任的AI创新。”
关于匿名性,意见指出,是否一个AI模型是匿名的,应由DPA逐案评估。要使模型匿名,应该非常不可能(1)直接或间接识别出用于创建模型的个人数据的个体,以及(2)通过查询从模型中提取此类个人数据。意见提供了一个非规定性和非穷尽性的方法列表,以证明匿名性。
关于合法利益,意见提供了一般性考虑,DPA在评估合法利益是否是处理个人数据用于开发和部署AI模型的适当法律依据时应该考虑这些因素。
一个三步测试有助于评估合法利益作为法律依据的使用。
EDPB给出了一个对话Agent协助用户的例子,以及使用AI改善网络安全的例子。这些服务可以为个人带来好处,并且可以依赖合法利益作为法律依据,但前提是必须证明处理是严格必要的,并且尊重权利平衡。
意见还包括一系列标准,以帮助DPA评估个人是否合理预期他们的个人数据的某些用途。这些标准包括:个人数据是否公开可用,个人与控制者之间的关系性质,服务的性质,收集个人数据的背景,数据收集的来源,模型的潜在进一步用途,以及个人是否实际上知道他们的个人数据在线。
如果平衡测试显示,由于对个人产生负面影响,处理不应该进行,缓解措施可能会限制这种负面影响。意见包括了一系列非穷尽性的缓解措施示例,这些措施可以是技术性的,或者使个人更容易行使其权利或增加透明度。
最后,如果AI模型是使用非法处理的个人数据开发的,
这可能会影响其部署的合法性
,除非模型已经适当地匿名化。
考虑到爱尔兰DPA的请求范围,AI模型的巨大多样性及其快速发展,意见旨在为进行逐案分析提供各种元素的指导。
此外,EDPB目前正在制定涵盖更具体问题(如网络抓取)的指南。
关于人工智能模型背景下处理个人数据的
些数据保护方面的意见(28/2024)
采纳日期:2024年12月17日
执行摘要
人工智能技术在广泛的行业和社会活动中创造了许多机会和好处。
GDPR通过保护数据进而保护基本人权,并促进其他欧盟基本权利,包括思想、表达和信息自由的权利,受教育权或经营自由的权利。通过这种方式,GDPR是一个鼓励负责任创新的法律框架。
在此背景下
,考虑到这些技术引起的数据保护问题,爱尔兰监管机构根据GDPR第64条第2款请求EDPB就一般适用的事项发表意见。请求涉及在人工智能(“AI”)模型的开发和部署阶段处理个人数据。更详细地说,请求询问了:
(1)何时以及如何可以将AI模型视为“匿名”的;
(2)控制者
如何证明在开发阶段将合法利益作为法律依据的妥当性
;
(3)控制者
如何证明在使用阶段将合法利益作为法律依据的妥当性
;
(4)在AI模型的开发阶段非法处理个人数据对AI模型后续处理或操作的后果是什么。
关于第一个问题
,意见提到,应该由
监管机构(“SA”或“
SAs”)逐案评估AI模型的匿名性声明,
因为EDPB认为,用个人数据训练的AI模型在所有情况下都不能被视为匿名的
。要使AI模型被视为匿名的,必须同时满足:
(1)直接(包括概率性)提取用于开发模型的个人数据的可能性,以及
(2)从查询中有意或无意获取此类个人数据的可能性都是微不足道的,考虑到控制者或其他人“合理可能使用的所有手段”。
为了进行评估,SAs应该审查控制者提供的文档,以证明模型的匿名性。在这方面,意见提供了一个非规定性和非穷尽性的方法列表,这些方法可能被控制者用于证明匿名性,并因此被SAs在评估控制者匿名性声明时考虑。这包括,例如,控制者在开发阶段采取的方法,以防止或限制用于训练的个人数据的收集,减少其可识别性,防止其提取或提供关于抵抗攻击的最新技术保证。
关于第二和第三个问题
,意见为SAs提供了一般考虑,以考虑在评估控制者是否可以依赖合法利益作为开发和部署AI模型背景下的处理活动的适当法律基础时。
意见回顾说,GDPR提供的法律基础之间没有等级制度,控制者需要确定其处理活动适当的法律基础。然后意见回顾了在评估合法利益作为法律基础时应该进行的三步测试,即:
(1)确定控制者或第三方追求的合法利益;
(2)分析处理对于追求合法利益的必要性(也称为“必要性测试”);
(3)评估合法利益是否被数据主体的利益或基本权利和自由所覆盖(也称为“平衡测试”)。
关于第一步,意见回顾说,如果满足以下三个累积标准,可以将利益视为合法:
(1)利益是合法的;
(2)被明确和精确地表述;
(3)是真实和存在的(即不是推测性的)。
这种利益可能包括,在AI模型的开发中——开发一个会话代理服务以协助用户,或者在其部署中——提高信息系统中的威胁检测。
关于第二步,意见回顾说,必要性的评估需要考虑:
(1)处理活动是否允许追求合法利益;
(2)是否有较少侵入性的方式来追求这一利益。在评估必要性条件是否满足时,SAs应特别注意处理的个人数据量,以及它是否与追求的利益成比例,同时考虑到数据最小化原则。
关于第三步,意见回顾说,平衡测试应该根据每个案例的具体情况进行。然后它提供了一个概述,SAs在评估控制者或第三方的利益是否被数据主体的利益、基本权利和自由所覆盖时可能考虑的因素。
作为第三步的一部分,意见强调了在AI模型的开发或部署阶段可能出现的对基本权利的具体风险。它还澄清了在AI模型的开发和部署阶段进行的个人数据处理可能会以不同的方式影响数据主体,这可能是积极的或消极的。为了评估这种影响,SAs可以考虑模型处理的数据的性质、处理的背景以及处理的可能进一步后果。
意见还强调了数据主体合理预期在平衡测试中的作用。由于AI模型中使用的技术的复杂性,以及数据主体可能难以理解其潜在用途的多样性以及涉及的不同处理活动,这可能很重要。在这方面,向数据主体提供的信息和处理的背景可能是评估数据主体是否可以合理预期其个人数据被处理的要素之一。关于背景,这可能包括:个人数据是否公开可用,数据主体和控制者之间的关系性质(以及两者之间是否存在联系),服务的性质,个人数据收集的背景,数据收集的来源(即,收集个人数据的网站或服务以及它们提供的隐私设置),模型的潜在进一步用途,以及数据主体是否意识到他们的个人数据是否在线。
意见还回顾说,当数据主体的利益、权利和自由似乎覆盖了控制者或第三方追求的合法利益时,控制者可以考虑引入缓解措施来限制处理对这些数据主体的影响。
缓解措施不应与控制者为确保遵守GDPR而必须采取的措施混淆。此外,这些措施应该根据案例的情况和AI模型的特点(包括其预期用途)量身定制。在这方面,意见提供了一个非穷尽性的缓解措施示例列表,涉及开发阶段(也涉及网络抓取)和部署阶段。缓解措施可能会迅速演变,应根据案例的情况量身定制。因此,由SAs逐案评估实施的缓解措施的适当性。
关于第四个问题
,意见一般回顾说,SAs享有自由裁量权,以评估可能的侵权行为,并选择适当、必要和相称的措施,同时考虑到每个案例的具体情况。然后意见考虑了三种情况。
在情景1中
,个人数据保留在AI模型中(这意味着模型不能被视为匿名的,如第一个问题中详细说明的)并由同一控制者随后处理(例如,在模型部署的背景下)。意见指出,开发和部署阶段是否涉及不同的目的(从而构成不同的处理活动),以及初始处理活动缺乏法律基础对后续处理合法性的影响,应根据案例的背景逐案评估。
在情景2中
,个人数据保留在模型中,并由另一个控制者在模型部署的背景下处理。在这方面,意见指出,SAs应考虑部署模型的控制者是否进行了适当的评估,作为其责任义务的一部分,以证明遵守GDPR第5条第1款(a)项和第6条,以确定AI模型不是通过非法处理个人数据开发的。这种评估应考虑,例如,个人数据的来源以及开发阶段的处理是否受到侵权行为的发现的影响,特别是如果它是由SA或法院确定的,应根据部署阶段处理的风险详细或简化。
在情景3中
,控制者非法处理个人数据以开发AI模型,然后确保其匿名化,然后同一或另一个控制者在部署的背景下启动另一项个人数据处理。在这方面,意见指出,如果可以证明AI模型的后续操作不涉及个人数据处理,EDPB认为GDPR将不适用。因此,初始处理的非法性不应影响模型的后续操作。此外,EDPB认为,当控制者在模型匿名化后在部署阶段随后处理收集的个人数据时,GDPR将适用于这些处理操作。在这些案例中,意见认为,关于GDPR,部署阶段进行的处理的合法性不应受到初始处理非法性的影响。
鉴于2016年4月27日欧洲议会和理事会关于自然人个人数据处理以及此类数据自由流动的保护条例2016/679/EU(以下简称“GDPR”)第63条和第64条第(2)款。
鉴于欧洲经济区(EEA)协议,特别是附件XI和第37号协议书,以及EEA联合委员会第154/2018号决定于2018年7月6日对其进行的修正,
鉴于其程序规则第10条和第22条,
鉴于:
(1) 欧洲数据保护委员会(以下简称“委员会”或“EDPB”)的主要作用是确保GDPR在整个欧洲经济区(EEA)的一致适用。GDPR第64(2)条明确,任何SA、委员会主席或委员会可以请求委员会对任何一般适用的事项或在超过一个EEA成员国产生效果的事项进行审查,以获得意见。该意见的目的是审查一般适用的事项或在超过一个EEA成员国产生效果的事项。
(2) 委员会的意见应根据GDPR第64(3)条和EDPB程序规则第10(2)条在主席和主管监管机构决定文件完整后的八周内通过。根据主席的决定,考虑到主题的复杂性,这一期限可以再延长六周。
已采纳以下意见
2024年9月4日,爱尔兰监管机构(“IE SA”或“请求SA”)根据GDPR第64(2)条请求EDPB就AI模型和个人数据处理发表意见(“请求”)。
委员会主席和IE SA在2024年9月13日考虑文件完整。在随后的工作日,即2024年9月16日,EDPB秘书处广播了该文件。委员会主席考虑到问题的复杂性,根据GDPR第64(3)条和EDPB程序规则第10(4)条决定延长法定期限。
请求涉及个人数据构成相关数据集一部分的AI模型的培训、更新、开发和操作的某些要素。IE SA强调,请求涉及对EEA中的数据主体和控制者产生高影响的关键问题,并且在此阶段国家SAs之间没有协调一致的立场。
问题1:使用个人数据训练的最终AI模型是否在所有情况下都不符合个人数据的定义(如GDPR第4(1)条所规定)?
i.
在创建人工智能模型的过程中,个人数据在哪个阶段就不再被处理了?
ii. 有没有因素会导致最终AI模型的操作不再被视为匿名?
a) 如果有,如何证明采取的措施以减轻、预防或保障这些因素(以确保AI模型不处理个人数据)?
a) 如果有,如何证明已经采取的步骤以确保AI模型不处理个人数据?
问题2:当数据控制者依赖合法利益作为个人数据处理的法律基础以创建、更新和/或开发AI模型时,该控制者应如何证明合法利益作为法律基础的适当性,无论是与第三方数据还是第一方数据的处理有关?
i. 该控制者应考虑哪些因素,以确保在以下背景下,被处理的个人数据的数据主体的利益与该控制者的利益适当平衡:
问题3:训练后,当数据控制者依赖合法利益作为个人数据处理的法律基础在AI模型内或AI模型所属的AI系统中进行时,控制者应如何证明合法利益作为法律基础的适当性?
问题4:如果发现AI模型是使用非法处理的个人数据创建、更新或开发的,这是否对AI模型的继续或后续处理或操作的合法性产生影响,如果:
i. AI模型单独或作为AI系统的一部分正在处理个人数据?
ii. AI模型或作为AI系统一部分的AI模型不处理个人数据?
GDPR第64(2)条规定,特别是任何SA可以请求委员会对任何一般适用的事项或在一个以上成员国产生效果的事项进行审查,以获得意见。
请求SA向EDPB提出了关于AI模型背景下的数据保护方面的问题。它在请求中指定,尽管许多组织现在正在使用AI模型,包括大型语言模型(“LLM”),它们的操作、培训和使用引发了“一系列广泛的影响整个欧盟/EEA数据主体的数据保护问题”。
请求本质上提出了关于(i)个人数据概念的应用;(ii)在AI模型背景下,合法性原则,特别是合法利益的法律基础;以及(iii)在AI模型开发阶段非法处理个人数据对模型后续处理或操作的后果的问题。
委员会认为,请求涉及GDPR第64(2)条意义上的“一般适用事项”。特别是,该事项涉及GDPR第4(1)条、第5(1)(a)条和第6条在AI模型开发和部署中个人数据处理的解释和应用。如请求SA所强调,这些条款在AI模型中的应用引发了系统性、抽象和新颖的问题。越来越多的组织快速发展和部署AI模型,提出了具体问题,如请求中所指出的,“EDPB将在短期内和中期内从就本请求提出的问题达成共同立场中大大受益”,这些问题对于EDPB计划的工作至关重要。此外,AI技术在广泛的行业和社会活动中创造了许多机会和好处。此外,GDPR是一个鼓励负责任创新的法律框架。因此,存在一种普遍利益,即以EDPB意见的形式进行这种评估,以确保在AI模型背景下某些GDPR条款的一致应用。
GDPR第64(2)条的替代条件指的是“在一个以上成员国产生效果的事项”。EDPB回顾说,“效果”一词应被宽泛解释,因此不仅仅局限于法律效果。随着越来越多的AI模型被EEA中越来越多的组织训练和使用,它们确实影响了整个EEA的大量数据主体,其中一些已经向其主管SA提出了关切。因此,EDPB认为,请求SA提出的问题也满足了这一条件。
请求包括提交问题给委员会的背景和动机的书面理由,包括相关法律框架。因此,委员会认为请求的理由符合EDPB程序规则第10(3)条。
根据GDPR第64(3)条,如果委员会已经就同一事项发表了意见,它不应再发表意见。EDPB尚未就同一事项发表意见,也尚未回答请求中提出的问题。
基于这些原因,委员会认为请求是可以接受的,请求中提出的问题应在本意见中进行分析(“意见”),根据GDPR第64(2)条采纳。
委员会同意请求SA的观点,从数据保护的角度来看,AI模型的开发和部署提出了基本的数据保护问题。这些问题特别涉及:(i) AI模型何时以及如何被视为“匿名”(请求中的问题1);(ii) 控制者如何在开发(请求中的问题2)和部署阶段(请求中的问题3)证明合法利益作为法律基础的适当性;以及(iii) 开发阶段非法处理个人数据是否对AI模型后续处理或操作的合法性产生影响(请求中的问题4)。
EDPB回顾,监管机构负责监督GDPR的适用,并应促进其在整个欧盟的一致适用。因此,监管机构有能力调查特定的AI模型,并在这样做时进行逐案评估。本意见为主管监管机构提供了一个框架,以评估特定案例中(部分)请求中提出的问题会出现的情况。本意见的目的不是穷尽无遗,而是提供对相关条款的一般性考虑,主管监管机构在行使调查权力时应充分考虑。虽然本意见针对主管监管机构及其活动和权力,但这并不妨碍GDPR下控制者和处理者的义务。特别是,根据GDPR第5(2)条所确立的责任原则,控制者应对其处理个人数据的所有原则负责,并能够证明其合规性。
在某些情况下,本意见可能提供了一些示例,但考虑到请求中包含的问题范围广泛,以及其中涵盖的不同类型AI模型,并非所有可能的场景都会在本意见中考虑。与AI模型相关的技术正在快速发展;因此,EDPB在本意见中的考虑应在此背景下解释。
本意见不分析以下条款,这些条款在评估适用于AI模型的数据保护要求时仍可能发挥重要作用:
•
特殊类别数据处理
:EDPB回顾GDPR第9(1)条关于特殊类别数据处理的禁止规定和第9(2)条的有限例外情况。在这方面,欧洲联盟法院(CJEU)进一步澄清,“当包含敏感数据和非敏感数据的数据集[…]被整体收集,而在收集时无法将数据项相互分离,如果该数据集至少包含一个敏感数据项,且不适用该法规第9(2)条的任何豁免,则该数据集的处理必须被视为GDPR第9(1)条意义上的禁止”。此外,CJEU还强调,“为了应用GDPR第9(2)条(e)款规定的例外情况,重要的是要确定数据主体是否打算通过明确的肯定行动,使有关个人数据可供公众访问”。在AI模型的背景下处理个人数据涉及特殊类别数据时,应考虑这些因素。
•
自动决策,包括用户画像
:在AI模型背景下进行的处理操作可能属于GDPR第22条的范围,该条款对控制者施加了额外的义务,并为数据主体提供了额外的保护。在这方面,EDPB回顾了其关于自动化个人决策和画像处理的指南。
•
目的兼容性
:GDPR第6(4)条为某些法律基础提供了标准,控制者应考虑这些标准以确定处理另一个目的是否与最初收集个人数据的目的兼容。在AI模型的开发和部署背景下,这一规定可能相关,其适用性应由监管机构评估。
•
数据保护影响评估(DPIA)
(GDPR第35条):DPIA是责任的一个重要元素,当AI模型背景下的处理可能导致对自然人的权利和自由构成高风险时。
•
通过设计实现数据保护原则(GDPR第25(1)条)
:通过设计实现数据保护是在AI模型的开发和部署背景下,监管机构需要评估的基本保护措施。
作为初步说明,EDPB希望对本意见中使用的术语和概念进行澄清,这些澄清仅适用于本意见:
• “第一方数据”指的是控制者
从数据主体那里直接收集的个人数据
。
• “第三方数据”指的是控制者没有从数据主体那里获得,而是从第三方那里收集或接收的个人数据,例如从数据经纪人那里获得的,或通过网络抓取收集的。
• “网络抓取”是一种从公开可用的在线来源收集信息的常用技术。从新闻媒体、社交媒体、论坛讨论和个人网站等服务中抓取的信息可能包含个人数据。
• 请求提到了AI模型的“生命周期”,以及关于“创建”、“开发”、“训练”、“更新”、“微调”、“操作”或“AI模型的后训练”等各个阶段。EDPB承认,根据情况,这些阶段可能发生在AI模型的开发和部署中,并可能包括为各种处理目的处理个人数据。尽管如此,为本意见的目的,EDPB认为重要的是简化可能发生的阶段的分类。因此,为了本意见的目的,EDPB提到了“开发阶段”和“部署阶段”。
AI模型的开发涵盖了AI模型部署前的所有阶段,包括代码开发、训练个人数据的收集、训练个人数据的预处理和训练。AI模型的部署涵盖了与AI模型使用相关的所有阶段,并可能包括开发阶段之后进行的任何操作。
EDPB意识到各种用例及其在处理个人数据方面的潜在后果的多样性;因此,监管机构应考虑本意见中提供的意见是否与它们评估的处理相关。
• EDPB还强调,在必要时,“训练”一词指的是开发阶段的一部分,AI模型在此阶段从数据中学习以执行其预定任务(如本意见下一部分所解释的)。
• AI模型的概念和范围,就EDPB为本次意见的目的而言,将在以下专门部分进一步明确。
欧盟人工智能法案(“AI Act”)将“AI系统”定义为“以机器为基础的系统,旨在以不同程度自主运行,并可能在部署后表现出适应性,并且,为了明确或隐含的目标,从其接收的输入中推断如何生成影响物理或虚拟环境的预测、内容、建议或决策等输出”。AI法案的第12条进一步解释了“AI系统”的概念。
因此,AI系统的一个关键特征是它们的推断能力。在构建AI系统时,使能推断的技术包括机器学习、逻辑和基于知识的方法。
另一方面,“AI模型”在AI法案中只是间接定义的:“尽管AI模型是AI系统的基本组成部分,但它们本身并不构成AI系统。AI模型需要添加更多组件,例如用户界面,才能成为AI系统。AI模型通常被集成到AI系统中并成为其一部分”。
EDPB理解,请求中提出的AI模型的定义比AI法案中的定义更狭窄,因为它将“AI模型”定义为“包含在人工智能、机器学习、深度学习或其他相关处理背景下,应用于一组训练数据的训练机制所产生的产品”,并进一步明确该术语适用于“打算进行进一步训练、微调和/或开发,以及不打算进行的AI模型”。
基于此,EDPB在本意见中采纳了以下理解:AI系统将依赖于AI模型来通过将模型集成到更大的框架中来执行其预定目标(例如,客户服务的AI系统可能使用在历史对话数据上训练的AI模型来响应用户查询)。
此外,与本意见相关的AI模型(或“模型”)是那些通过训练过程开发的。这样的训练过程是开发阶段的一部分,模型在此阶段从数据中学习以执行其预定任务。因此,训练过程需要一个数据集,模型将从中识别和“学习”模式。在这些情况下,模型将使用不同的技术来构建从训练数据集中提取的知识的表示。这特别是在机器学习中如此。
在实践中,任何AI模型都是一个算法,其功能由一组元素决定。例如,深度学习模型通常以具有多个层的神经网络形式存在,每层由通过边连接的节点组成,边具有权重,在训练过程中调整以学习输入和输出之间的关系。一个简单的深度学习模型的特征将是:(i)每层的类型和大小,(ii)每个边的权重(有时称为“参数”),(iii)层之间的激活函数,以及可能的(iv)层之间可能发生的其他操作。例如,在训练一个简单的深度学习模型进行图像分类时,输入(“图像像素”)将与输出关联,并且权重可能会调整,以便大部分时间产生正确的输出。
其他深度学习模型的例子包括大型语言模型(LLM)和生成式AI,它们用于生成类似人类的内容和创建新数据。
基于上述考虑,并与请求一致,本意见的范围仅涵盖那些用个人数据训练的AI模型的子集。
GDPR第4(1)条将个人数据定义为“与已识别或可识别的自然人(即数据主体)有关的任何信息”。此外,GDPR第26条明确,数据保护原则不适用于匿名信息,即不与已识别或可识别的自然人有关的任何信息,考虑到控制者或其他人“合理可能使用的所有手段”。这包括:(i)从未与已识别或可识别的个人有关的数据;以及(ii)以如此方式匿名处理的个人数据,以至于数据主体不再可识别或无法再被识别。
因此,可以通过分析涉及处理个人数据的训练得到的AI模型是否在所有情况下都应被视为匿名的,来回答请求中的第121个问题。
基于问题的措辞,EDPB将在本节中提到AI模型的训练过程。
首先,EDPB希望提供以下一般性考虑。无论AI模型是否用个人数据训练,它们通常被设计为进行预测或得出结论,即它们被设计为进行推断。此外,用个人数据训练的AI模型通常被设计为对与用于训练AI模型的个人数据不同的个人进行推断。然而,一些AI模型专门被设计为提供有关用于训练模型的个人数据,或以某种方式使这些数据可用。在这些情况下,这些AI模型将固有地(通常是必然地)包含与已识别或可识别的自然人有关的信息,并将涉及个人数据的处理。
因此,这些类型的AI模型不能被视为匿名。例如,(i)
在个人的声音录音上微调的生成模型以模仿其声音
;或(ii)
任何被设计为在被要求提供有关特定个人的信息时,用训练中的个人数据回复的模型
。
基于上述考虑,在回答请求中的问题1时,EDPB关注那些没有被设计为提供与训练数据有关的个人数据的AI模型的情况。
EDPB认为,即使AI模型没有故意设计为从训练数据中产生与已识别或可识别的自然人有关的信息,训练数据集中的信息,包括个人数据,可能仍然“被吸收”在模型的参数中,即通过数学对象表示。
它们可能与原始训练数据点不同,但可能仍然保留这些数据的原始信息,这些信息最终可能被提取或以直接或间接的方式从模型中获得。
每当可以从AI模型中以合理可能使用的手段获得与用于训练模型的已识别或可识别个人有关的信息时,可以得出这样的模型不是匿名的结论。
在这方面,请求指出,“现有研究出版物强调了AI模型中可能存在的一些潜在漏洞,这些漏洞可能导致个人数据被处理,以及当模型被部署用于与其他数据一起使用时可能进行的个人数据处理,无论是通过应用程序API接口还是提示界面”。
继续讨论,关于训练数据提取的研究特别活跃,表明在某些情况下,可以使用合理可能的手段从一些AI模型中提取个人数据,或者简单地通过与AI模型(例如作为AI系统的一部分)的交互意外获得个人数据。在这一领域的持续研究工作将有助于进一步评估在任何特定情况下个人数据反刍和提取的残余风险。
基于上述考虑,EDPB认为,用个人数据训练的AI模型不能在所有情况下都被视为匿名的。相反,是否一个AI模型是匿名的,应该基于特定标准,逐案评估。
3.2 关于AI模型可能被视为匿名的情况及相关证明
关于请求中的问题1,EDPB被要求澄清,用个人数据训练的AI模型在何种情况下可以被视为匿名的。关于请求中的问题1(i)(a),EDPB被要求澄清,在评估AI模型是否匿名时,监管机构应考虑哪些证据和/或文件。
GDPR第4(1)条中“个人数据”定义中使用的“任何信息”这一表达反映了旨在赋予该概念广泛范围的目标,包括所有种类的信息,只要它与数据主体“有关”,无论是直接还是间接识别的。
信息可能与自然人有关,即使在技术上以不立即明显的方式组织或编码(例如,仅机器可读的格式,无论是专有的还是开放的)。在这些情况下,软件应用程序可能被用来轻松识别、识别和提取特定数据。这对于AI模型尤其如此,其中参数代表训练数据之间的统计关系,可能可以从模型中包含的数据之间的关系中直接提取准确或不准确的(因为统计推断)个人数据,或者通过查询模型。
由于AI模型通常不包含可能直接隔离或链接的记录,而是代表包含在模型中的数据之间的概率关系的参数,因此可能可以从模型中推断信息,例如成员资格推断,在现实场景中。
因此,为了让监管机构同意控制者的观点,即认为某个AI模型可以被视为匿名的,它应该至少检查是否收到了足够的证据,证明通过合理手段:(i)
与训练数据相关的个人数据不能从模型中提取
;以及 (ii)
查询模型时产生的任何输出与用于训练模型的个人数据无关
。
一是
,监管机构应考虑WP29最新意见和/或EDPB指南中确定的要素。关于本意见日期的匿名化,监管机构应考虑WP29关于匿名化技术的意见05/2014(“WP29意见05/2014”)中包含的要素,它指出,如果无法从假定的匿名数据集中单独识别、链接和推断信息,则数据可以被视为匿名的。
它还指出,“每当一个提议不符合其中一个标准时,应进行识别风险的彻底评估”。鉴于上述提取和推断的可能性,EDPB认为AI模型非常可能需要进行这样的识别风险的彻底评估。
二是
,这一评估应考虑到控制者或另一个人“合理可能使用的所有手段”来识别个人,并且那些手段的确定应基于客观因素,如GDPR第26条所解释的,可能包括:
c. 将允许识别的额外信息,并且可能对给定人员可用;
d. 该人员需要获得此类额外信息的成本和时间(如果他们尚未获得);
三是
,监管机构应考虑控制者是否评估了控制者和不同类型的“其他人”(包括无意中访问AI模型的第三方)的识别风险,同时考虑他们是否合理地可以被认为是能够获得访问或处理有关数据的能力。
总之,EDPB认为,要使AI模型被视为匿名的,使用合理手段,既 (i) 直接(包括概率性)提取用于训练模型的个人数据的可能性;以及 (ii) 从查询中有意或无意获取此类个人数据的可能性,对任何数据主体来说应该是微不足道的。
默认情况下,监管机构应认为AI模型可能需要进行彻底的识别可能性评估,以得出关于其可能的匿名性质的结论。这种可能性应考虑到控制者或另一个人“合理可能使用的所有手段”,并且还应考虑无意的(重新)使用或披露模型。
虽然可以在开发和部署阶段采取措施减少从AI模型中获取个人数据的可能性,但AI模型的匿名性评估还应考虑对模型的直接访问。
此外,监管机构应逐案评估控制者为确保和证明AI模型是匿名的而采取的措施是否适当和有效。
特别是,监管机构的评估结论可能因AI模型的公开可用性和内部使用性而异,公开可用的AI模型可以被不特定的许多人访问,他们可能使用一系列未知的方法尝试提取个人数据,而内部AI模型仅对员工开放。尽管在这两种情况下,监管机构都应验证控制者是否履行了GDPR第5(2)条和第24条下的问责义务,但“
其他人合理可能使用的手段”可能会影响需要考虑的可能情况的范围和性质
。因此,根据模型的开发和部署背景,监管机构可能会考虑不同级别的测试和对攻击的抵抗力。
在这方面,EDPB在下面提供了一个非规定性和非穷尽性的可能要素列表,监管机构在评估控制者关于匿名性的声明时可能会考虑这些要素。如果其他方法提供了相当的保护水平,特别是考虑到技术现状,也可能有其他方法。
下面列出的要素的存在或缺失不是评估AI模型匿名性的决定性标准。