ICO认为网络抓取训练数据的合法性主要体现在以下两个方面:一是不违反任何法律规定;二是具备GDPR规定的合法基础。因此,网络抓取训练数据一方面除需要符合英国数据保护立法外,也不能违反其他立法规定。再而,关于第二点提及的合法基础,ICO认为可以考虑GDPR 第6(1)条所列举的六个合法性基础。其中,前五项合法性基础可能不适合作为网络抓取训练生成式人工智能模型的法律依据,但GDPR第6(1)(f)条规定的“合法利益”可以作为上述训练数据抓取与处理的合法基础。
合法利益作为网络抓取训练生成式人工智能模型的合法基础,需要进行三项合法性测试:一是处理目的的合法性;二是基于合法目的处理的必要性;三是受损害的个人利益范围不超过开发者的合法利益。关于具体如何进行上述合法性测试,ICO进一步进行了分析。
第一,目的性测试,
即是否存在正当利益?作为人工智能生成模型训练的控制者,开发者首先需要确定处理网络抓取的个人数据的合法利益内容。尽管模型有许多潜在的下游用途,但他们需要根据收集训练数据时可以获取的信息,以具体而非开放式的方式来确定合法利益。开发者的利益可以是开发模型和部署模型以获取商业利益的商业利益,可以是在自己的平台上,也可以是将模型推向市场供第三方采购。此外,还可能存在与模型潜在应用相关的更广泛的社会利益,因而开发者必须能够证明模型的具体目的和用途。反之,如果模型开发者不知道所开发的生成式人工智能模型将被用于什么目的,则难以确保模型的下游使用会尊重数据保护规定以及个人的权利和自由,关于存在正当利益的解释也难有支撑。根据英国数据保护立法的规定“防止欺诈、确保网络和信息安全、识别潜在的犯罪行为或对公共安全的威胁”属于正当利益的范畴。正当利益的范畴比较广泛,难以一一列举,开发者需要明确模型开发的具体目的,才能进一步确定目的的合法性。此外,模型开关者确定合法利益的内容后还需要付诸行动,适当监控生成式人工智能模型的应用,确保合法利益的实现。
第二,必要性测试,
即网络抓取是否有必要?必要性测试是一种事实性评估,旨在明确信息处理对于实现目的检验中确定的利益是否必要。ICO认为,目前,大多数生成式人工智能的模型训练只能使用通过大规模抓取获得数据,一般的数据收集无法支撑模型训练需要的数据量。尽管未来的技术发展可能会提供新的解决方案和替代方案,但目前几乎没有证据表明生成式人工智能模型可以使用数据库进行替代性开发。综上,ICO认为当前通过网络抓取数据进行生成式人工智能模型的训练是必要的。
第三,平衡性测试,
即个人权利是否凌驾于生成式人工智能开发者的合法利益之上?如果人工智能模型开发者确定使用网络抓取的数据进行生成式人工智能训练是合法的目的,并且该处理对于该目的是必要的,那么最后一步是评估对个人的影响,确定这些个人的利益、权利和自由是否优先于开发者或第三方所追求的利益、权利和自由。简言之,模型开发对个人利益的影响是否与其背后实现的合法利益相称。生成式人工智能模型的开发会对个人利益有损害风险。网络抓取数据是一种“无形的处理”活动,个人并不知道他们的个人数据正在以这种方式被处理。这意味着个人信息主体可能会失去对个人数据的控制,或者无法行使英国数据保护法授予的个人信息主体权利。上述风险被称为上游风险,此外在生成式人工智能模型具体应用的阶段还存在下游风险。例如,生成式人工智能模型可用于生成不准确的个人信息个人困扰或名誉受损,被黑客利用生成针对个人的钓鱼电子邮件等。
个人利益是否优于模型开发背后的正当利益,取决于模型开发与应用对个人权益、权利以及自由影响的严重程度。为在损害的个人利益和维护的合法利益之间实现平衡,模型开发者需要采取相应的风险控制措施,减轻模型开发与部署应用过程中可能给个人利益造成的风险损害,使损害的个人利益与实现的合法利益相称。换言之,通过采取风险控制措施,减少个人利益的风险损害,使个人利益风险损害与合法利益相称。生成式人工智能模型的市场投放方式不同,开发者为进行利益平衡所需采取的风险控制措施也会有所不同。
第一,初始开发者直接部署应用生成式人工智能模型。
此时,为进行利益平衡,开发者应完全实现对生成式人工智能模型应用的控制。具体来说,模型开发者应采取以下举措:1)控制并证明生成式人工智能模型是否实际用于目的测试所述的合法利益;2)评估个人面临的风险(无论是在生成式人工智能开发期间提前评估,还是作为部署后持续监控的一部分);3)实施技术和组织措施以降低个人风险。
第二,由第三方(而非初始开发者)通过应用程序接口部署生成式人工智能模型。
此时初始生成式人工智能开发者可以通过对特定部署实施技术控制(如输出过滤器等)和组织控制,确保第三方的部署符合生成式人工智能训练开发阶段确定的合法利益。例如设置应用程序的访问权限、监控人工智能模型的应用。
第三,将开发的生成式人工智能模型提供给第三方。
此时,初始开发者对模型应用的控制受限,因为初始开发者能无法知道在初始训练阶段确定的合法利益是否在实践中得以实现。此外,如果第三方对模型的使用不受限制,很难清晰、准确地表达开发初始模型时所欲保护的合法利益。对此,初始开发者应与第三方订立合同,以合同方式实现对生成式人工智能模型应用的监控,监督第三方对模型的部署应用并要求第三方按照合同要求采取相应的组织和技术措施。
以下几种情形不符合相称性要求:1)数据用于模型训练超出个人的合理期望;2)处理的数据是敏感数据例如例如特殊类别数据、刑事犯罪数据或儿童数据;3)数据用于模型训练会对个人产生重大不利影响。