本号可能一日内发布多篇推送,但只有一篇能被推送给所有读者,推荐标星⭐本号,避免错过数据合规新鲜资讯~
简评:别人家的监管,真细致。
要点:
1.如何评估并证明一个人工智能模型是否匿名?
2.是否合法利益可以作为训练或使用人工智能模型的法律依据?
3.如果人工智能模型是用非法处理的个人数据训练的,会发生什么?
EDPB关于AI模型的意见:GDPR基本原则支持负责任的AI
布鲁塞尔,12月18日 - 欧洲数据保护委员会(EDPB)采纳了一项关于使用个人数据开发和部署人工智能(AI)模型的意见。这项意见审视了
1)何时以及如何将AI模型视为匿名
2)是否可以以及如何将合法利益用作开发或使用AI模型的法律依据,
以及
3)如果AI模型是使用非法处理的个人数据开发的,会发生什么。
它还考虑了第一方(译者注:直接收集)和第三方(译者注:间接收集)数据的使用。
这项意见是由爱尔兰数据保护局(DPA)请求发出的,旨在寻求全欧洲范围内的监管协调。为了收集这项涉及快速发展技术对社会产生重要影响的意见,EDPB组织了一次利益相关者活动,并与欧盟AI办公室进行了交流。
EDPB主席Talus表示:“AI技术可能为不同行业和生活领域带来许多机会和好处。我们需要确保这些创新在道德、安全的方式下进行,并且使每个人都受益。EDPB希望通过确保个人数据得到保护,并充分尊重通用数据保护条例(GDPR),来支持负责任的AI创新。”
关于匿名性,意见指出,是否一个AI模型是匿名的,应由DPA逐案评估。要使模型匿名,应该非常不可能(1)直接或间接识别出用于创建模型的个人数据的个体,以及(2)通过查询从模型中提取此类个人数据。意见提供了一个非规定性和非穷尽性的方法列表,以证明匿名性。
关于合法利益,意见提供了一般性考虑,DPA在评估合法利益是否是处理个人数据用于开发和部署AI模型的适当法律依据时应该考虑这些因素。
一个三步测试有助于评估合法利益作为法律依据的使用。
EDPB给出了一个对话Agent协助用户的例子,以及使用AI改善网络安全的例子。这些服务可以为个人带来好处,并且可以依赖合法利益作为法律依据,但前提是必须证明处理是严格必要的,并且尊重权利平衡。
意见还包括一系列标准,以帮助DPA评估个人是否合理预期他们的个人数据的某些用途。这些标准包括:个人数据是否公开可用,个人与控制者之间的关系性质,服务的性质,收集个人数据的背景,数据收集的来源,模型的潜在进一步用途,以及个人是否实际上知道他们的个人数据在线。
如果平衡测试显示,由于对个人产生负面影响,处理不应该进行,缓解措施可能会限制这种负面影响。意见包括了一系列非穷尽性的缓解措施示例,这些措施可以是技术性的,或者使个人更容易行使其权利或增加透明度。
最后,如果AI模型是使用非法处理的个人数据开发的,
这可能会影响其部署的合法性
,除非模型已经适当地匿名化。
考虑到爱尔兰DPA的请求范围,AI模型的巨大多样性及其快速发展,意见旨在为进行逐案分析提供各种元素的指导。
此外,EDPB目前正在制定涵盖更具体问题(如网络抓取)的指南。
关于人工智能模型背景下处理个人数据的
些数据保护方面的意见(28/2024)
采纳日期:2024年12月17日
执行摘要
人工智能技术在广泛的行业和社会活动中创造了许多机会和好处。
GDPR通过保护数据进而保护基本人权,并促进其他欧盟基本权利,包括思想、表达和信息自由的权利,受教育权或经营自由的权利。通过这种方式,GDPR是一个鼓励负责任创新的法律框架。
在此背景下
,考虑到这些技术引起的数据保护问题,爱尔兰监管机构根据GDPR第64条第2款请求EDPB就一般适用的事项发表意见。请求涉及在人工智能(“AI”)模型的开发和部署阶段处理个人数据。更详细地说,请求询问了:
(1)何时以及如何可以将AI模型视为“匿名”的;
(2)控制者
如何证明在开发阶段将合法利益作为法律依据的妥当性
;
(3)
控制者
如何证明在使用阶段将合法利益作为法律依据的妥当性
;
(4)在AI模型的开发阶段非法处理个人数据对AI模型后续处理或操作的后果是什么。
关于第一个问题
,意见提到,应该由
监管机构(“SA”或“
SAs”)
逐案评估AI模型的匿名性声明,
因为EDPB认为,用个人数据训练的AI模型在所有情况下都不能被视为匿名的
。要使AI模型被视为匿名的,必须同时满足:
(1)直接(包括概率性)提取用于开发模型的个人数据的可能性,以及
(2)从查询中有意或无意获取此类个人数据的可能性都是微不足道的,考虑到控制者或其他人“合理可能使用的所有手段”。
为了进行评估,SAs应该审查控制者提供的文档,以证明模型的匿名性。在这方面,意见提供了一个非规定性和非穷尽性的方法列表,这些方法可能被控制者用于证明匿名性,并因此被SAs在评估控制者匿名性声明时考虑。这包括,例如,控制者在开发阶段采取的方法,以防止或限制用于训练的个人数据的收集,减少其可识别性,防止其提取或提供关于抵抗攻击的最新技术保证。
关于第二和第三个问题
,意见为SAs提供了一般考虑,以考虑在评估控制者是否可以依赖合法利益作为开发和部署AI模型背景下的处理活动的适当法律基础时。
意见回顾说,GDPR提供的法律基础之间没有等级制度,控制者需要确定其处理活动适当的法律基础。然后意见回顾了在评估合法利益作为法律基础时应该进行的三步测试,即:
(1)确定控制者或第三方追求的合法利益;
(2)分析处理对于追求合法利益的必要性(也称为“必要性测试”);
(3)评估合法利益是否被数据主体的利益或基本权利和自由所覆盖(也称为“平衡测试”)。
关于第一步,意见回顾说,如果满足以下三个累积标准,可以将利益视为合法:
(1)利益是合法的;
(2)被明确和精确地表述;
(3)是真实和存在的(即不是推测性的)。
这种利益可能包括,在AI模型的开发中——开发一个会话代理服务以协助用户,或者在其部署中——提高信息系统中的威胁检测。
关于第二步,意见回顾说,必要性的评估需要考虑:
(1)处理活动是否允许追求合法利益;
(2)是否有较少侵入性的方式来追求这一利益。在评估必要性条件是否满足时,SAs应特别注意处理的个人数据量,以及它是否与追求的利益成比例,同时考虑到数据最小化原则。
关于第三步,意见回顾说,平衡测试应该根据每个案例的具体情况进行。然后它提供了一个概述,SAs在评估控制者或第三方的利益是否被数据主体的利益、基本权利和自由所覆盖时可能考虑的因素。
作为第三步的一部分,意见强调了在AI模型的开发或部署阶段可能出现的对基本权利的具体风险。它还澄清了在AI模型的开发和部署阶段进行的个人数据处理可能会以不同的方式影响数据主体,这可能是积极的或消极的。为了评估这种影响,SAs可以考虑模型处理的数据的性质、处理的背景以及处理的可能进一步后果。
意见还强调了数据主体合理预期在平衡测试中的作用。由于AI模型中使用的技术的复杂性,以及数据主体可能难以理解其潜在用途的多样性以及涉及的不同处理活动,这可能很重要。在这方面,向数据主体提供的信息和处理的背景可能是评估数据主体是否可以合理预期其个人数据被处理的要素之一。关于背景,这可能包括:个人数据是否公开可用,数据主体和控制者之间的关系性质(以及两者之间是否存在联系),服务的性质,个人数据收集的背景,数据收集的来源(即,收集个人数据的网站或服务以及它们提供的隐私设置),模型的潜在进一步用途,以及数据主体是否意识到他们的个人数据是否在线。
意见还回顾说,当数据主体的利益、权利和自由似乎覆盖了控制者或第三方追求的合法利益时,控制者可以考虑引入缓解措施来限制处理对这些数据主体的影响。
缓解措施不应与控制者为确保遵守GDPR而必须采取的措施混淆。此外,这些措施应该根据案例的情况和AI模型的特点(包括其预期用途)量身定制。在这方面,意见提供了一个非穷尽性的缓解措施示例列表,涉及开发阶段(也涉及网络抓取)和部署阶段。缓解措施可能会迅速演变,应根据案例的情况量身定制。因此,由SAs逐案评估实施的缓解措施的适当性。
关于第四个问题
,意见一般回顾说,SAs享有自由裁量权,以评估可能的侵权行为,并选择适当、必要和相称的措施,同时考虑到每个案例的具体情况。然后意见考虑了三种情况。
在情景1中
,个人数据保留在AI模型中(这意味着模型不能被视为匿名的,如第一个问题中详细说明的)并由同一控制者随后处理(例如,在模型部署的背景下)。意见指出,开发和部署阶段是否涉及不同的目的(从而构成不同的处理活动),以及初始处理活动缺乏法律基础对后续处理合法性的影响,应根据案例的背景逐案评估。
在情景2中
,个人数据保留在模型中,并由另一个控制者在模型部署的背景下处理。在这方面,意见指出,SAs应考虑部署模型的控制者是否进行了适当的评估,作为其责任义务的一部分,以证明遵守GDPR第5条第1款(a)项和第6条,以确定AI模型不是通过非法处理个人数据开发的。这种评估应考虑,例如,个人数据的来源以及开发阶段的处理是否受到侵权行为的发现的影响,特别是如果它是由SA或法院确定的,应根据部署阶段处理的风险详细或简化。
在情景3中
,控制者非法处理个人数据以开发AI模型,然后确保其匿名化,然后同一或另一个控制者在部署的背景下启动另一项个人数据处理。在这方面,意见指出,如果可以证明AI模型的后续操作不涉及个人数据处理,EDPB认为GDPR将不适用。因此,初始处理的非法性不应影响模型的后续操作。此外,EDPB认为,当控制者在模型匿名化后在部署阶段随后处理收集的个人数据时,GDPR将适用于这些处理操作。在这些案例中,意见认为,关于GDPR,部署阶段进行的处理的合法性不应受到初始处理非法性的影响。
鉴于2016年4月27日欧洲议会和理事会关于自然人个人数据处理以及此类数据自由流动的保护条例2016/679/EU(以下简称“GDPR”)第63条和第64条第(2)款。
鉴于欧洲经济区(EEA)协议,特别是附件XI和第37号协议书,以及EEA联合委员会第154/2018号决定于2018年7月6日对其进行的修正,
鉴于其程序规则第10条和第22条,
鉴于:
(1) 欧洲数据保护委员会(以下简称“委员会”或“EDPB”)的主要作用是确保GDPR在整个欧洲经济区(EEA)的一致适用。GDPR第64(2)条明确,任何SA、委员会主席或委员会可以请求委员会对任何一般适用的事项或在超过一个EEA成员国产生效果的事项进行审查,以获得意见。该意见的目的是审查一般适用的事项或在超过一个EEA成员国产生效果的事项。
(2) 委员会的意见应根据GDPR第64(3)条和EDPB程序规则第10(2)条在主席和主管监管机构决定文件完整后的八周内通过。根据主席的决定,考虑到主题的复杂性,这一期限可以再延长六周。
已采纳以下意见
1.1 事实摘要
2024年9月4日,爱尔兰监管机构(“IE SA”或“请求SA”)根据GDPR第64(2)条请求EDPB就AI模型和个人数据处理发表意见(“请求”)。
委员会主席和IE SA在2024年9月13日考虑文件完整。在随后的工作日,即2024年9月16日,EDPB秘书处广播了该文件。委员会主席考虑到问题的复杂性,根据GDPR第64(3)条和EDPB程序规则第10(4)条决定延长法定期限。
请求涉及个人数据构成相关数据集一部分的AI模型的培训、更新、开发和操作的某些要素。IE SA强调,请求涉及对EEA中的数据主体和控制者产生高影响的关键问题,并且在此阶段国家SAs之间没有协调一致的立场。
用于本意见的术语在下文2.2和2.3部分中提供。
IE SA提出了以下问题:
问题1:使用个人数据训练的最终AI模型是否在所有情况下都不符合个人数据的定义(如GDPR第4(1)条所规定)?
如果问题1的答案是“是”:
i.
在创建人工智能模型的过程中,个人数据在哪个阶段就不再被处理了?
a) 如何证明AI模型不处理个人数据?
ii. 有没有因素会导致最终AI模型的操作不再被视为匿名?
a) 如果有,如何证明采取的措施以减轻、预防或保障这些因素(以确保AI模型不处理个人数据)?
i. 如果问题1的答案是“否”:
可能发生这种情况的情况是什么?
a) 如果有,如何证明已经采取的步骤以确保AI模型不处理个人数据?
问题2:当数据控制者依赖合法利益作为个人数据处理的法律基础以创建、更新和/或开发AI模型时,该控制者应如何证明合法利益作为法律基础的适当性,无论是与第三方数据还是第一方数据的处理有关?
i. 该控制者应考虑哪些因素,以确保在以下背景下,被处理的个人数据的数据主体的利益与该控制者的利益适当平衡:
a) 第三方数据
b) 第一方数据
问题3:训练后,当数据控制者依赖合法利益作为个人数据处理的法律基础在AI模型内或AI模型所属的AI系统中进行时,控制者应如何证明合法利益作为法律基础的适当性?
问题4:如果发现AI模型是使用非法处理的个人数据创建、更新或开发的,这是否对AI模型的继续或后续处理或操作的合法性产生影响,如果:
i. AI模型单独或作为AI系统的一部分正在处理个人数据?
ii. AI模型或作为AI系统一部分的AI模型不处理个人数据?
1.2 请求GDPR第64(2)条意见的可用性
GDPR第64(2)条规定,特别是任何SA可以请求委员会对任何一般适用的事项或在一个以上成员国产生效果的事项进行审查,以获得意见。
请求SA向EDPB提出了关于AI模型背景下的数据保护方面的问题。它在请求中指定,尽管许多组织现在正在使用AI模型,包括大型语言模型(“LLM”),它们的操作、培训和使用引发了“一系列广泛的影响整个欧盟/EEA数据主体的数据保护问题”。
请求本质上提出了关于(i)个人数据概念的应用;(ii)
在AI模型背景下,
合法性原则,特别是合法利益的法律基础;以及(iii)在AI模型开发阶段非法处理个人数据对模型后续处理或操作的后果的问题。
委员会认为,请求涉及GDPR第64(2)条意义上的“一般适用事项”。特别是,该事项涉及GDPR第4(1)条、第5(1)(a)条和第6条在AI模型开发和部署中个人数据处理的解释和应用。如请求SA所强调,这些条款在AI模型中的应用引发了系统性、抽象和新颖的问题。越来越多的组织快速发展和部署AI模型,提出了具体问题,如请求中所指出的,“EDPB将在短期内和中期内从就本请求提出的问题达成共同立场中大大受益”,这些问题对于EDPB计划的工作至关重要。此外,AI技术在广泛的行业和社会活动中创造了许多机会和好处。此外,GDPR是一个鼓励负责任创新的法律框架。因此,存在一种普遍利益,即以EDPB意见的形式进行这种评估,以确保在AI模型背景下某些GDPR条款的一致应用。
GDPR第64(2)条的替代条件指的是“在一个以上成员国产生效果的事项”。EDPB回顾说,“效果”一词应被宽泛解释,因此不仅仅局限于法律效果。随着越来越多的AI模型被EEA中越来越多的组织训练和使用,它们确实影响了整个EEA的大量数据主体,其中一些已经向其主管SA提出了关切。因此,EDPB认为,请求SA提出的问题也满足了这一条件。
请求包括提交问题给委员会的背景和动机的书面理由,包括相关法律框架。因此,委员会认为请求的理由符合EDPB程序规则第10(3)条。
根据GDPR第64(3)条,如果委员会已经就同一事项发表了意见,它不应再发表意见。EDPB尚未就同一事项发表意见,也尚未回答请求中提出的问题。
基于这些原因,委员会认为请求是可以接受的,请求中提出的问题应在本意见中进行分析(“意见”),根据GDPR第64(2)条采纳。
2.1 意见的范围
委员会同意请求SA的观点,从数据保护的角度来看,AI模型的开发和部署提出了基本的数据保护问题。这些问题特别涉及:(i) AI模型何时以及如何被视为“匿名”(请求中的问题1);(ii) 控制者如何在开发(请求中的问题2)和部署阶段(请求中的问题3)证明合法利益作为法律基础的适当性;以及(iii) 开发阶段非法处理个人数据是否对AI模型后续处理或操作的合法性产生影响(请求中的问题4)。
EDPB回顾,监管机构负责监督GDPR的适用,并应促进其在整个欧盟的一致适用。因此,监管机构有能力调查特定的AI模型,并在这样做时进行逐案评估。本意见为主管监管机构提供了一个框架,以评估特定案例中(部分)请求中提出的问题会出现的情况。本意见的目的不是穷尽无遗,而是提供对相关条款的一般性考虑,主管监管机构在行使调查权力时应充分考虑。虽然本意见针对主管监管机构及其活动和权力,但这并不妨碍GDPR下控制者和处理者的义务。特别是,根据GDPR第5(2)条所确立的责任原则,控制者应对其处理个人数据的所有原则负责,并能够证明其合规性。
在某些情况下,本意见可能提供了一些示例,但考虑到请求中包含的问题范围广泛,以及其中涵盖的不同类型AI模型,并非所有可能的场景都会在本意见中考虑。与AI模型相关的技术正在快速发展;因此,EDPB在本意见中的考虑应在此背景下解释。
本意见不分析以下条款,这些条款在评估适用于AI模型的数据保护要求时仍可能发挥重要作用:
•
特殊类别数据处理
:EDPB回顾GDPR第9(1)条关于特殊类别数据处理的禁止规定和第9(2)条的有限例外情况。在这方面,欧洲联盟法院(CJEU)进一步澄清,“当包含敏感数据和非敏感数据的数据集[…]被整体收集,而在收集时无法将数据项相互分离,如果该数据集至少包含一个敏感数据项,且不适用该法规第9(2)条的任何豁免,则该数据集的处理必须被视为GDPR第9(1)条意义上的禁止”。此外,CJEU还强调,“为了应用GDPR第9(2)条(e)款规定的例外情况,重要的是要确定数据主体是否打算通过明确的肯定行动,使有关个人数据可供公众访问”。在AI模型的背景下处理个人数据涉及特殊类别数据时,应考虑这些因素。
•
自动决策,包括用户画像
:在AI模型背景下进行的处理操作可能属于GDPR第22条的范围,该条款对控制者施加了额外的义务,并为数据主体提供了额外的保护。在这方面,EDPB回顾了其关于自动化个人决策和画像处理的指南。
•
目的兼容性
:GDPR第6(4)条为某些法律基础提供了标准,控制者应考虑这些标准以确定处理另一个目的是否与最初收集个人数据的目的兼容。在AI模型的开发和部署背景下,这一规定可能相关,其适用性应由监管机构评估。
•
数据保护影响评估(DPIA)
(GDPR第35条):DPIA是责任的一个重要元素,当AI模型背景下的处理可能导致对自然人的权利和自由构成高风险时。
•
通过设计实现数据保护原则(GDPR第25(1)条)
:通过设计实现数据保护是在AI模型的开发和部署背景下,监管机构需要评估的基本保护措施。
2.2 主要观点
作为初步说明,EDPB希望对本意见中使用的术语和概念进行澄清,这些澄清仅适用于本意见:
• “第一方数据”指的是控制者
从数据主体那里直接收集的个人数据
。
• “第三方数据”指的是控制者没有从数据主体那里获得,而是从第三方那里收集或接收的个人数据,例如从数据经纪人那里获得的,或通过网络抓取收集的。
• “网络抓取”是一种从公开可用的在线来源收集信息的常用技术。从新闻媒体、社交媒体、论坛讨论和个人网站等服务中抓取的信息可能包含个人数据。
• 请求提到了AI模型的“生命周期”,以及关于“创建”、“开发”、“训练”、“更新”、“微调”、“操作”或“AI模型的后训练”等各个阶段。EDPB承认,根据情况,这些阶段可能发生在AI模型的开发和部署中,并可能包括为各种处理目的处理个人数据。尽管如此,为本意见的目的,EDPB认为重要的是简化可能发生的阶段的分类。因此,为了本意见的目的,EDPB提到了“开发阶段”和“部署阶段”。
AI模型的开发涵盖了AI模型部署前的所有阶段,包括代码开发、训练个人数据的收集、训练个人数据的预处理和训练。AI模型的部署涵盖了与AI模型使用相关的所有阶段,并可能包括开发阶段之后进行的任何操作。
EDPB意识到各种用例及其在处理个人数据方面的潜在后果的多样性;因此,监管机构应考虑本意见中提供的意见是否与它们评估的处理相关。
• EDPB还强调,在必要时,“训练”一词指的是开发阶段的一部分,AI模型在此阶段从数据中学习以执行其预定任务(如本意见下一部分所解释的)。
• AI模型的概念和范围,就EDPB为本次意见的目的而言,将在以下专门部分进一步明确。
2.3 本意见背景下的AI模型
欧盟人工智能法案(“AI Act”)将“AI系统”定义为“以机器为基础的系统,旨在以不同程度自主运行,并可能在部署后表现出适应性,并且,为了明确或隐含的目标,从其接收的输入中推断如何生成影响物理或虚拟环境的预测、内容、建议或决策等输出”。AI法案的第12条进一步解释了“AI系统”的概念。
因此,AI系统的一个关键特征是它们的推断能力。在构建AI系统时,使能推断的技术包括机器学习、逻辑和基于知识的方法。
另一方面,“AI模型”在AI法案中只是间接定义的:“尽管AI模型是AI系统的基本组成部分,但它们本身并不构成AI系统。AI模型需要添加更多组件,例如用户界面,才能成为AI系统。AI模型通常被集成到AI系统中并成为其一部分”。
EDPB理解,请求中提出的AI模型的定义比AI法案中的定义更狭窄,因为它将“AI模型”定义为“包含在人工智能、机器学习、深度学习或其他相关处理背景下,应用于一组训练数据的训练机制所产生的产品”,并进一步明确该术语适用于“打算进行进一步训练、微调和/或开发,以及不打算进行的AI模型”。
基于此,EDPB在本意见中采纳了以下理解:AI系统将依赖于AI模型来通过将模型集成到更大的框架中来执行其预定目标(例如,客户服务的AI系统可能使用在历史对话数据上训练的AI模型来响应用户查询)。
此外,与本意见相关的AI模型(或“模型”)是那些通过训练过程开发的。这样的训练过程是开发阶段的一部分,模型在此阶段从数据中学习以执行其预定任务。因此,训练过程需要一个数据集,模型将从中识别和“学习”模式。在这些情况下,模型将使用不同的技术来构建从训练数据集中提取的知识的表示。这特别是在机器学习中如此。
在实践中,任何AI模型都是一个算法,其功能由一组元素决定。例如,深度学习模型通常以具有多个层的神经网络形式存在,每层由通过边连接的节点组成,边具有权重,在训练过程中调整以学习输入和输出之间的关系。一个简单的深度学习模型的特征将是:(i)每层的类型和大小,(ii)每个边的权重(有时称为“参数”),(iii)层之间的激活函数,以及可能的(iv)层之间可能发生的其他操作。例如,在训练一个简单的深度学习模型进行图像分类时,输入(“图像像素”)将与输出关联,并且权重可能会调整,以便大部分时间产生正确的输出。
其他深度学习模型的例子包括大型语言模型(LLM)和生成式AI,它们用于生成类似人类的内容和创建新数据。
基于上述考虑,并与请求一致,本意见的范围仅涵盖那些用个人数据训练的AI模型的子集。
3.1 关于AI模型的性质与个人数据定义的关系
GDPR第4(1)条将个人数据定义为“与已识别或可识别的自然人(即数据主体)有关的任何信息”。此外,GDPR第26条明确,数据保护原则不适用于匿名信息,即不与已识别或可识别的自然人有关的任何信息,考虑到控制者或其他人“合理可能使用的所有手段”。这包括:(i)从未与已识别或可识别的个人有关的数据;以及(ii)以如此方式匿名处理的个人数据,以至于数据主体不再可识别或无法再被识别。
因此,可以通过分析涉及处理个人数据的训练得到的AI模型是否在所有情况下都应被视为匿名的,来回答请求中的第121个问题。
基于问题的措辞,EDPB将在本节中提到AI模型的训练过程。
首先,EDPB希望提供以下一般性考虑。无论AI模型是否用个人数据训练,它们通常被设计为进行预测或得出结论,即它们被设计为进行推断。此外,用个人数据训练的AI模型通常被设计为对与用于训练AI模型的个人数据不同的个人进行推断。然而,一些AI模型专门被设计为提供有关用于训练模型的个人数据,或以某种方式使这些数据可用。在这些情况下,这些AI模型将固有地(通常是必然地)包含与已识别或可识别的自然人有关的信息,并将涉及个人数据的处理。
因此,这些类型的AI模型不能被视为匿名。例如,(i)
在个人的声音录音上微调的生成模型以模仿其声音
;或(ii)
任何被设计为在被要求提供有关特定个人的信息时,用训练中的个人数据回复的模型
。
基于上述考虑,在回答请求中的问题1时,EDPB关注那些没有被设计为提供与训练数据有关的个人数据的AI模型的情况。
EDPB认为,即使AI模型没有故意设计为从训练数据中产生与已识别或可识别的自然人有关的信息,训练数据集中的信息,包括个人数据,可能仍然“被吸收”在模型的参数中,即通过数学对象表示。
它们可能与原始训练数据点不同,但可能仍然保留这些数据的原始信息,这些信息最终可能被提取或以直接或间接的方式从模型中获得。
每当可以从AI模型中以合理可能使用的手段获得与用于训练模型的已识别或可识别个人有关的信息时,可以得出这样的模型不是匿名的结论。
在这方面,请求指出,“现有研究出版物强调了AI模型中可能存在的一些潜在漏洞,这些漏洞可能导致个人数据被处理,以及当模型被部署用于与其他数据一起使用时可能进行的个人数据处理,无论是通过应用程序API接口还是提示界面”。
继续讨论,关于训练数据提取的研究特别活跃,表明在某些情况下,可以使用合理可能的手段从一些AI模型中提取个人数据,或者简单地通过与AI模型(例如作为AI系统的一部分)的交互意外获得个人数据。在这一领域的持续研究工作将有助于进一步评估在任何特定情况下个人数据反刍和提取的残余风险。
基于上述考虑,EDPB认为,用个人数据训练的AI模型不能在所有情况下都被视为匿名的。相反,是否一个AI模型是匿名的,应该基于特定标准,逐案评估。
3.2 关于AI模型可能被视为匿名的情况及相关证明
关于请求中的问题1,EDPB被要求澄清,用个人数据训练的AI模型在何种情况下可以被视为匿名的。关于请求中的问题1(i)(a),EDPB被要求澄清,在评估AI模型是否匿名时,监管机构应考虑哪些证据和/或文件。
3.2.1 关于当前背景下匿名化的一般考虑
GDPR第4(1)条中“个人数据”定义中使用的“任何信息”这一表达反映了旨在赋予该概念广泛范围的目标,包括所有种类的信息,只要它与数据主体“有关”,无论是直接还是间接识别的。
信息可能与自然人有关,即使在技术上以不立即明显的方式组织或编码(例如,仅机器可读的格式,无论是专有的还是开放的)。在这些情况下,软件应用程序可能被用来轻松识别、识别和提取特定数据。这对于AI模型尤其如此,其中参数代表训练数据之间的统计关系,可能可以从模型中包含的数据之间的关系中直接提取准确或不准确的(因为统计推断)个人数据,或者通过查询模型。
由于AI模型通常不包含可能直接隔离或链接的记录,而是代表包含在模型中的数据之间的概率关系的参数,因此可能可以从模型中推断信息,例如成员资格推断,在现实场景中。
因此,为了让监管机构同意控制者的观点,即认为某个AI模型可以被视为匿名的,它应该至少检查是否收到了足够的证据,证明通过合理手段:(i)
与训练数据相关的个人数据不能从模型中提取
;以及 (ii)
查询模型时产生的任何输出与用于训练模型的个人数据无关
。
监管机构在评估这些条件是否满足时应考虑三个要素。
一是
,监管机构应考虑WP29最新意见和/或EDPB指南中确定的要素。关于本意见日期的匿名化,监管机构应考虑WP29关于匿名化技术的意见05/2014(“WP29意见05/2014”)中包含的要素,它指出,如果无法从假定的匿名数据集中单独识别、链接和推断信息,则数据可以被视为匿名的。
它还指出,“每当一个提议不符合其中一个标准时,应进行识别风险的彻底评估”。鉴于上述提取和推断的可能性,EDPB认为AI模型非常可能需要进行这样的识别风险的彻底评估。
二是
,这一评估应考虑到控制者或另一个人“合理可能使用的所有手段”来识别个人,并且那些手段的确定应基于客观因素,如GDPR第26条所解释的,可能包括:
a. 训练数据本身、AI模型和训练程序的特征;
b. AI模型发布和/或处理的背景;
c. 将允许识别的额外信息,并且可能对给定人员可用;
d. 该人员需要获得此类额外信息的成本和时间(如果他们尚未获得);
e. 加工时可用的技术以及技术发展。
三是
,监管机构应考虑控制者是否评估了控制者和不同类型的“其他人”(包括无意中访问AI模型的第三方)的识别风险,同时考虑他们是否合理地可以被认为是能够获得访问或处理有关数据的能力。
总之,EDPB认为,要使AI模型被视为匿名的,使用合理手段,既 (i) 直接(包括概率性)提取用于训练模型的个人数据的可能性;以及 (ii) 从查询中有意或无意获取此类个人数据的可能性,对任何数据主体来说应该是微不足道的。
默认情况下,监管机构应认为AI模型可能需要进行彻底的识别可能性评估,以得出关于其可能的匿名性质的结论。这种可能性应考虑到控制者或另一个人“合理可能使用的所有手段”,并且还应考虑无意的(重新)使用或披露模型。
3.2.2 评估识别残余可能性的要素
虽然可以在开发和部署阶段采取措施减少从AI模型中获取个人数据的可能性,但AI模型的匿名性评估还应考虑对模型的直接访问。
此外,监管机构应逐案评估控制者为确保和证明AI模型是匿名的而采取的措施是否适当和有效。
特别是,监管机构的评估结论可能因AI模型的公开可用性和内部使用性而异,公开可用的AI模型可以被不特定的许多人访问,他们可能使用一系列未知的方法尝试提取个人数据,而内部AI模型仅对员工开放。尽管在这两种情况下,监管机构都应验证控制者是否履行了GDPR第5(2)条和第24条下的问责义务,但“
其他人合理可能使用的手段”可能会影响需要考虑的可能情况的范围和性质
。因此,根据模型的开发和部署背景,监管机构可能会考虑不同级别的测试和对攻击的抵抗力。
在这方面,EDPB在下面提供了一个非规定性和非穷尽性的可能要素列表,监管机构在评估控制者关于匿名性的声明时可能会考虑这些要素。如果其他方法提供了相当的保护水平,特别是考虑到技术现状,也可能有其他方法。
下面列出的要素的存在或缺失不是评估AI模型匿名性的决定性标准。
3.2.2.1 AI模型设计
关于AI模型设计,监管机构应评估控制者在开发阶段采取的方法。在这方面,应考虑四个关键领域(下面确定)的应用和有效性。
数据源选择
第一个评估领域涉及检查用于训练AI模型的数据源选择。这包括监管机构评估为避免或限制收集个人数据而采取的任何步骤,包括但不限于:(i)选择标准的适当性;(ii)根据预期目的选择的来源的相关性和充分性;以及(iii)是否排除了不适当的来源。
数据准备和最小化
第二个评估领域涉及训练阶段的数据准备工作。监管机构应特别检查:(i)是否考虑使用匿名和/或经过伪匿名化的个人数据;以及(ii)在决定不使用这些措施时,考虑到预期目的,这一决定的原因;(iii)为限制训练过程中包含的个人数据量而采用的数据最小化策略和技术;以及(iv)在模型训练前实施的任何数据过滤过程,旨在移除不相关的个人数据。
关于训练的方法选择
第三个评估领域涉及AI模型开发中稳健方法的选择。监管机构应评估可能显著降低或消除可识别性的方法选择,包括但不限于:(i)该方法是否使用正则化方法来改善模型泛化并减少过拟合;以及(ii)控制者是否实施了适当和有效的隐私保护技术(例如差分隐私)。
关于模型输出的措施
最后一个评估领域涉及添加到AI模型本身的任何方法或措施,这些方法或措施可能不会影响任何人直接访问模型时直接提取个人数据的风险,但可能降低从查询中获取与训练数据相关的个人数据的可能性。
3.2.2.2 AI模型分析
为了评估设计好的AI模型在匿名化方面的健壮性,第一步是确保设计已按计划开发并受到有效的工程治理。监管机构应评估控制者是否进行了任何基于文件的审计(内部或外部),包括对所选择措施及其限制识别可能性影响的评估。这可能包括分析代码审查报告,以及理论分析文件,以证明为降低模型重新识别可能性所选择措施的适当性。
3.2.2.3 AI模型测试和对攻击的抵抗力
监管机构应考虑控制者对模型进行的测试的范围、频率、数量和质量。特别是,监管机构应考虑到,成功的测试覆盖了广泛已知的、最先进的攻击,只能作为对这些攻击的抵抗力的证据。在本意见的日期,这可能包括但不限于针对以下攻击的结构化测试:(i)属性和成员资格推断;(ii)数据泄露;(iii)训练数据的反刍;(iv)模型反转;或(v)重建攻击。
3.2.2.4 文件记录
GDPR第5条、第24条、第25条和第30条要求控制者充分记录其处理操作。这也适用于包括AI模型训练在内的任何处理,即使处理的目标是匿名化。监管机构应考虑此类文件记录和对控制者进行的处理的相应风险的定期评估,因为它们是证明不处理个人数据的基本步骤。
EDPB认为,每当需要评估关于给定AI模型的匿名性声明时,监管机构应考虑文件记录。EDPB指出,如果监管机构在评估匿名性声明后,包括根据文件记录,无法确认控制者已采取有效措施对AI模型进行匿名化,监管机构可以认为控制者未能满足GDPR第5(2)条下的问责义务。因此,还应考虑对GDPR其他条款的遵守情况。
理想情况下,监管机构应验证控制者的文件记录是否包括:
a. 与数据保护影响评估(DPIA)相关的任何信息,包括确定不需要DPIA的任何评估和决定;
b. 数据保护官员(“DPO”)(在任命了DPO的情况下——或本应任命DPO的情况下)提供的建议或反馈;
c. 在设计AI模型时为降低识别可能性而采取的技术和管理措施的信息,包括这些措施所依据的威胁模型和风险评估。这应包括每个训练数据集来源的具体措施,包括相关源URL和已采取措施(或第三方数据集提供者已采取的措施)的描述;
d. 在模型生命周期的所有阶段采取的技术和管理措施,这些措施要么有助于,要么验证了模型中缺乏个人数据;
e. 证明AI模型对重新识别技术的理论上的抵抗力,以及为限制或评估主要攻击(反刍、成员资格推断攻击、数据泄露等)的成功和影响而设计的控制措施的文件记录。这可能特别包括:(i)训练数据量与模型参数数量之间的比例,包括其对模型影响的分析;(ii)基于当前技术现状的重新识别可能性的指标;(iii)模型如何被测试的报告(由谁、何时、如何以及在何种程度上);(iv)测试结果;
f. 提供给部署模型的控制者和/或数据主体的文件记录,特别是与降低识别可能性的措施和可能的残余风险相关的文件记录。
3.3 关于在AI模型的开发和部署背景下,以合法利益为法律基础处理个人数据的适当性
为了回答请求中的第2和第3个问题,EDPB将首先提供一些一般性观察,这些观察是监管机构在评估控制者如何在AI模型背景下展示符合GDPR时,无论处理的法律基础是什么,都应考虑的重要方面。基于GDPR第6(1)条(f)款处理个人数据的指南1/2024,EDPB将考虑在AI模型的开发和部署背景下,合法利益评估所需的三个步骤。
3.3.1 一般观察
EDPB回顾,GDPR没有在第6(1)条GDPR中规定的不同法律基础之间建立任何等级制度。GDPR第5条设定了与个人数据处理相关的原则。EDPB强调了对本意见重要的那些原则,监管机构在评估特定AI模型时至少应考虑这些原则,以及其他GDPR条款的最重要要求,考虑到本意见的范围。
责任原则(GDPR第5(2)条)
- 该原则规定,控制者应对符合GDPR负责,并能够证明符合GDPR。在这方面,应在处理发生之前评估在AI模型的开发或部署背景下处理个人数据的各方的角色和责任,以从一开始就定义控制者或共同控制者以及处理者(如果有)的义务。
合法性、公正性和透明度原则(GDPR第5(1)(a)条)
- 在评估AI模型背景下处理的合法性时,考虑到GDPR第6(1)条,EDPB认为区分处理个人数据的不同阶段是有用的。公正性原则与透明度原则密切相关,要求个人数据不得通过不公平的方法、欺骗或以“对数据主体不公正、非法歧视、意外或误导”的方式处理。考虑到所涉及技术的复杂性,因此应在易于获取、易于理解和用户友好的方式中提供AI模型内个人数据处理的信息。个人数据处理的透明度包括,特别是,遵守GDPR第12至14条设定的信息义务,这些义务还要求在自动决策的情况下,包括画像,提供有关所涉及逻辑的有意义的信息,以及处理对数据主体的重要性和预期后果。考虑到AI模型的开发阶段可能涉及从公开可访问的来源(例如通过网络抓取技术)收集大量数据,依赖GDPR第14(5)(b)条下的例外严格限于完全满足该条款要求的情况。
目的限制和数据最小化原则(GDPR第5(1)(b)、(c)条)
- 根据数据最小化原则,AI模型的开发和部署要求个人数据应与目的相关,充分、相关且必要。这可能包括处理个人数据以避免在目的中明确和具体识别的潜在偏见和错误的风险,以及个人数据对目的的必要性(例如,它们不能通过处理其他数据,包括合成或匿名数据,有效地实现)。
数据主体权利(GDPR第三章)
- 尽管需要监管机构确保在控制者开发和部署AI模型时尊重所有数据主体权利,但EDPB回顾,每当控制者依赖合法利益作为法律基础时,适用GDPR第21条下的反对权,并应确保。
3.3.2 在AI模型的开发和部署背景下,合法利益评估的三个步骤的考虑
为了确定是否可以基于GDPR第6(1)条(f)款处理个人数据,监管机构应验证控制者是否仔细评估并记录了以下三个累积条件是否满足:
(i)控制者或第三方追求合法利益;
(ii)处理对于追求合法利益是必要的;以及
(iii)合法利益没有被数据主体的利益或基本权利和自由所覆盖。
3.3.2.1 第一步 - 控制者或第三方追求合法利益
利益是控制者或第三方可能在从事特定处理活动时拥有的更广泛的利益或好处。虽然GDPR和CJEU承认几种利益是合法的,但对特定利益的合法性的评估应该是逐案分析的结果。
正如EDPB在其关于合法利益的指南中回顾的,如果满足以下三个累积标准,可以将利益视为合法:
a. 利益是合法的;
b. 利益被明确和精确地表述;
c. 利益是真实和存在的,不是推测性的。
在合法利益评估所需的其他两个步骤的条件下,以下示例可能构成AI模型背景下的合法利益:
(i)开发协助用户的会话代理服务;
(ii)开发用于检测欺诈内容或行为的AI系统;以及
(iii)改进信息系统中的威胁检测。
3.3.2.2 第二步 - 分析处理对追求合法利益的必要性
评估的第二步是确定处理个人数据是否对追求合法利益的目的来说是必要的(“必要性测试”)。
GDPR第39条澄清,“如果处理目的不能合理地通过其他手段实现,则不应处理个人数据”。根据CJEU和EDPB之前的指南,处理的必要性条件应考虑到数据主体的基本权利和自由,并与GDPR第5(1)条(c)款中确立的数据最小化原则一起考虑。
CJEU提到的方法考虑到了处理的背景以及对控制者和数据主体的影响。因此,必要性的评估包括两个要素:
(i)处理活动是否允许追求目的;以及
(ii)是否有较少侵入性的途径来追求这一目的。
例如,根据可能合理可用的较少侵入性的替代方案,需要评估AI模型中涉及的预期个人数据量,以同样有效地实现追求的合法利益的目的。如果通过不涉及处理个人数据的AI模型也能达到目的,那么处理个人数据应被视为不必要的。这对于AI模型的开发尤其相关。在评估是否满足必要性条件时,监管机构应特别注意处理的个人数据量,以及它是否与追求的利益成比例,也考虑到数据最小化原则。
必要性的评估还应考虑到预期处理个人数据的更广泛背景。对数据主体的基本权利和自由影响较少的手段的存在可能取决于控制者是否与数据主体有直接关系(第一方数据)或没有(第三方数据)。CJEU在分析追求第一方数据的合法利益目的处理的必要性时提供了一些考虑因素(尽管是在向第三方披露此类数据的背景下)。
实施技术保障措施保护个人数据也可能有助于满足必要性测试。这可能包括,例如,实施第3.2.2节中确定的措施,以便虽然没有达到匿名化,但仍然减少了识别数据主体的容易程度。
EDPB指出,这些措施中的一些,当不是为遵守GDPR所必需时,可能构成额外的安全措施,如第3.3.2.3节“缓解措施”中进一步分析的。
3.3.2.3 第三步 - 平衡测试
合法利益评估的第三步是“
平衡练习
”(在本文件中也称为“
平衡测试
”)。这一步包括识别和描述不同对立的权利和利益,即一方面,数据主体的利益、基本权利和自由,另一方面,控制者或第三方的利益。然后应考虑案件的具体情形,以证明合法利益是所涉处理活动的适当法律基础。
数据主体的利益、基本权利和自由
GDPR第6(1)条(f)款规定,在平衡测试的背景下评估不同组成部分时,控制者应考虑数据主体的利益、基本权利和自由。数据主体的利益可能受到所处理数据的影响。在AI模型的开发阶段,这些可能包括但不限于对自我决定权和控制自己个人数据(例如,用于模型开发的收集的数据)的利益。在AI模型的部署阶段,数据主体的利益可能包括但不限于控制自己个人数据的利益(例如,一旦模型部署后处理的数据)、财务利益(例如,当AI模型被数据主体用来产生收入,或在专业活动中使用时)、个人利益(例如,当AI模型用于提高某些服务的可访问性时)或社会经济利益(例如,当AI模型提供更好的医疗保健或促进行使基本权利如教育的访问时)。
越精确地根据处理的目的定义利益,就越能清晰地理解平衡测试中需要考虑的利益和风险的现实情况。
关于数据主体的基本权利和自由,AI模型的开发和部署可能对欧盟基本权利宪章(“欧盟宪章”)保护的权利构成严重风险,包括但不限于私生活和家庭生活的权利(欧盟宪章第7条)和个人数据保护的权利(欧盟宪章第8条)。这些风险可能在开发阶段发生,例如,当个人数据被违反数据主体的意愿或在他们不知情的情况下被抓取时。这些风险也可能在部署阶段发生,例如,当个人数据被(或作为)模型以违反数据主体权利的方式处理时,或者当可能偶然或通过攻击(例如,成员资格推断、提取或模型反转)推断出学习数据库中包含的个人数据时。这些情况对数据可能在AI系统部署阶段出现的隐私构成风险(例如,声誉风险、身份盗窃或欺诈、根据数据性质的安全风险)。
根据所处理的案件,可能还存在对其他基本权利的风险。例如,AI模型在开发阶段进行大规模和不加区别的数据收集可能为数据主体创造监视感,特别是考虑到防止公共数据被抓取的困难。这可能导致个人自我审查,并可能破坏他们的表达自由(欧盟宪章第11条)。在部署阶段,当AI模型用于阻止数据主体发布内容时,也存在表达自由的风险。此外,向弱势个体推荐不适当内容的AI模型可能对他们的心理健康构成风险(欧盟宪章第3(1)条)。在其他情况下,AI模型的部署还可能导致对个人从事工作权利的不利后果(欧盟宪章第15条),例如,当工作申请使用AI模型预先筛选时。同样,AI模型可能对非歧视权构成风险(欧盟宪章第21条),如果它基于某些个人特征(如国籍或性别)歧视个体。此外,AI模型的部署也可能对个人的安全和健康构成风险(例如,当AI模型被恶意使用时),以及对他们的身体和心理健康构成风险。
AI模型的部署也可能对某些基本权利产生积极影响,例如,模型可能支持个人的心理健康权利(宪章第3条),例如,当AI模型用于识别在线有害内容时;或者模型可能促进某些基本服务的访问或促进基本权利的行使,如获取信息(欧盟宪章第11条)或教育(欧盟宪章第14条)。
处理对数据主体的影响
在AI模型的开发和部署过程中进行的个人数据处理可能以不同的方式影响数据主体,可能是积极的或消极的。例如,如果处理活动为数据主体带来利益,这些可能在平衡测试中被考虑。虽然这些利益的存在可能导致监管机构得出控制者或第三方的利益不被数据主体的利益、基本权利和自由所覆盖的结论,但这种结论只能是考虑到所有适当因素的逐案分析的结果。
处理对数据主体的影响可能受到(i)模型处理的数据的性质;(ii)处理的背景;以及(iii)处理可能产生的进一步后果的影响。
关于模型处理的数据的性质
,应该回顾一下,除了特殊类别的个人数据和与刑事定罪和犯罪行为相关的数据,它们分别在GDPR第9条和第10条下享有额外保护外,处理某些其他类别的个人数据可能导致对数据主体产生重大后果。在这种情况下,处理某些类型的个人数据以揭示高度私密信息(例如,财务数据或位置数据)用于AI模型的开发和部署应被视为可能对数据主体产生严重影响。在部署阶段,这种处理对数据主体的后果可能是经济上的(例如,在就业背景下的歧视)和/或名誉上的(例如,诽谤)。
关于处理的背景
,首先需要确定可能为数据主体创造风险的要素(例如,模型的开发方式,模型可能的部署方式,和/或用于保护个人数据的安全措施是否适当)。模型的性质和预期的运营用途在识别这些潜在原因中起着关键作用。
还需要评估这些风险对数据主体的严重性。可能会考虑,除其他外,如何处理个人数据(例如,如果它与其他数据集结合),处理的规模和处理的个人数据量是多少(例如,数据的总体积,每个数据主体的数据体积,受影响的数据主体数量),数据主体的地位(例如,儿童或其他弱势数据主体)以及他们与控制者的关系(例如,如果数据主体是客户)。例如,在开发阶段使用网络抓取可能导致在没有足够保障措施的情况下对个人产生重大影响,由于收集的大量数据、大量数据主体和不加区别的个人数据收集。
处理可能产生的进一步后果也应该在评估处理对数据主体的影响时被考虑。它们应由监管机构逐案评估,考虑具体事实。
这些后果可能包括(但不限于)侵犯数据主体基本权利的风险,如前一小节所述。这些风险可能在可能性和严重性上有所不同,可能源于可能导致身体、物质或非物质损害的个人数据处理,特别是当处理可能导致歧视时。
当AI模型的部署涉及处理(i)数据主体的个人数据,这些数据主体的个人数据包含在开发阶段使用的数据集中;和(ii)数据主体的个人数据在部署阶段被处理时,监管机构应区分并考虑影响每个类别数据主体的利益、权利和自由的风险,当验证控制者进行的平衡测试时。
最后,分析处理的可能进一步后果时,还应考虑这些进一步后果实现的可能性。
这种可能性的评估应考虑现有的技术和组织措施以及案件的具体情况。例如,监管机构可能会考虑是否实施了措施以避免AI模型的潜在滥用。对于可能被用于多种目的的AI模型,如生成式AI,这可能包括尽可能限制其用于有害实践的控制,例如:创建深度伪造;用于虚假信息、网络钓鱼和其他类型欺诈的聊天机器人;以及操纵性AI/AI代理(特别是当它们是人形的或提供误导性信息时)。
数据主体的合理预期
根据GDPR第47条,“无论如何,合法利益的存在需要仔细评估,包括数据主体在收集个人数据时和在该背景下是否可以合理预期该目的的处理可能会发生。特别是,在数据主体不合理预期进一步处理的情况下,数据主体的利益和基本权利可能会覆盖控制者的利益,其中个人数据是在数据主体不合理预期进一步处理的情况下处理的。”为了此目的,提供给数据主体的信息可能被考虑以评估数据主体是否可以合理预期他们的个人数据被处理。然而,虽然信息的遗漏可能导致数据主体不预期某种处理,但仅仅满足GDPR规定的透明度要求本身并不足以认为数据主体可以合理预期某种处理。此外,仅仅因为有关AI模型开发阶段的信息包含在控制者的隐私政策中,并不一定意味着数据主体可以合理预期它会发生;相反,这应该由监管机构根据案件的具体情况和考虑所有相关因素进行分析。
在评估数据主体对开发阶段处理的合理预期时,重要的是参考EDPB关于合法利益的指南中提到的要素。此外,在本意见的主题事项中,考虑处理的更广泛背景很重要。这可能包括,但不限于,个人数据是否公开可用,数据主体和控制者之间的关系性质(以及两者之间是否存在联系),服务的性质,收集个人数据的背景,数据的来源(例如,收集个人数据的网站或服务以及它们提供的隐私设置),模型的潜在进一步用途,以及数据主体是否意识到他们的个人数据是否在线。