专栏名称: 网络空间治理
专注网络空间治理领域(包括但不限于法律、战略、技术、管理)的理论与实务。
目录
相关文章推荐
HACK学习呀  ·  交易实战 | ... ·  昨天  
九派新闻  ·  科室主任回应唐山南湖医院停诊:正在调整 ·  3 天前  
西安头条  ·  一医院突然停诊,所有患者全部出院! ·  3 天前  
FM1007福建交通广播  ·  唐山南湖医院被曝倒闭!院方:已停止接诊,患者 ... ·  4 天前  
51好读  ›  专栏  ›  网络空间治理

ICO:网络抓取训练生成式人工智能模型的合法基础

网络空间治理  · 公众号  ·  · 2024-02-17 16:55

正文

人工智能是英国信息专员办公室(ICO)重点关注的领域之一。ICO认为人工智能的在各行业的应用会对个人权利和自由产生风险。对此,ICO发挥作为监管机构的职能,围绕人工智能开展了相关工作,就人工智能使用与数据保护的相关问题提出了一些意见、观点。例如,发布人工智能相关的指南、提供人工智能和数据保护风险工具包、发布报告以及提供咨询回应等。2024年1月15日,ICO启动了一项关于生成式人工智能模型以及数据保护应如何应用于其开发的咨询,希望借此听取行业利益相关者的意见(包括生成式人工智能的开发者和用户、在该领域工作的法律顾问和顾问、民间社会团体和其他对生成式人工智能感兴趣的公共机构)。其中第一章节的咨询征集主题为“网络抓取训练生成式AI模型的合法基础”。在咨询征集发出的同时,ICO介绍了一些关于网络抓取训练生成式人工智能模型的背景信息并提出了初步的观点分析。本文主要对ICO上述背景介绍和观点的主要内容进行梳理总结。


1

基础介绍:生成式人工智能模型的开发周期


生成式人工智能是利用人工智能创建生成新的内容,如文本、图像、音乐、音频和视频等。此前学界讨论热烈的ChatGPT便是一种生成式人工智能。ICO指出生成式人工智能模型的开发主要经历五个阶段(见图1)。前两个阶段是收集数据并对收集的数据进行预处理。第三个阶段是利用数据进行模型训练。第四个阶段是对基本模型的数据进行微调,以便后续模型的部署应用与性能评估。第五个阶段是对生成式人工智能模型进行部署应用,定期评估并根据反馈进行模型优化改进。


图1:模型开发生命周期示意图(来源:ICO官网)



2

训练数据:生成式人工智能模型与网络抓取


如上文所述,收集训练数据是开发生成式人工智能模型的首要阶段。大多数生成式人工智能模型的开发者都依赖可公开访问的资源来获取训练数据,这一过程被称为网络抓取(web scraping)。网络抓取是指使用自动化软件“抓取”网页,收集、复制从这些网页中提取信息,并存储该信息以供进一步使用。“抓取”的信息可以是网站上的图片、视频、文字等。网络抓取训练数据在途径上可具体细分为两种,一种是开发者直接通过网络进行训练数据的抓取。另一种是间接的数据抓取,即通过另一专门进行网络数据抓取的组织获取训练数据。无论采取何种途径获取训练数据,开发者都需要确保他们为训练模型而收集或处理的个人数据符合数据保护的规定。因为在网络抓取的过程中,抓取的信息可能涉及到具体的个人信息主体,为此需要确保数据的抓取和后续处理必须遵守数据保护的相关规定。



3

网络抓取数据的合法基础及其分析


ICO认为网络抓取训练数据的合法性主要体现在以下两个方面:一是不违反任何法律规定;二是具备GDPR规定的合法基础。因此,网络抓取训练数据一方面除需要符合英国数据保护立法外,也不能违反其他立法规定。再而,关于第二点提及的合法基础,ICO认为可以考虑GDPR 第6(1)条所列举的六个合法性基础。其中,前五项合法性基础可能不适合作为网络抓取训练生成式人工智能模型的法律依据,但GDPR第6(1)(f)条规定的“合法利益”可以作为上述训练数据抓取与处理的合法基础。


合法利益作为网络抓取训练生成式人工智能模型的合法基础,需要进行三项合法性测试:一是处理目的的合法性;二是基于合法目的处理的必要性;三是受损害的个人利益范围不超过开发者的合法利益。关于具体如何进行上述合法性测试,ICO进一步进行了分析。


第一,目的性测试, 即是否存在正当利益?作为人工智能生成模型训练的控制者,开发者首先需要确定处理网络抓取的个人数据的合法利益内容。尽管模型有许多潜在的下游用途,但他们需要根据收集训练数据时可以获取的信息,以具体而非开放式的方式来确定合法利益。开发者的利益可以是开发模型和部署模型以获取商业利益的商业利益,可以是在自己的平台上,也可以是将模型推向市场供第三方采购。此外,还可能存在与模型潜在应用相关的更广泛的社会利益,因而开发者必须能够证明模型的具体目的和用途。反之,如果模型开发者不知道所开发的生成式人工智能模型将被用于什么目的,则难以确保模型的下游使用会尊重数据保护规定以及个人的权利和自由,关于存在正当利益的解释也难有支撑。根据英国数据保护立法的规定“防止欺诈、确保网络和信息安全、识别潜在的犯罪行为或对公共安全的威胁”属于正当利益的范畴。正当利益的范畴比较广泛,难以一一列举,开发者需要明确模型开发的具体目的,才能进一步确定目的的合法性。此外,模型开关者确定合法利益的内容后还需要付诸行动,适当监控生成式人工智能模型的应用,确保合法利益的实现。


第二,必要性测试, 即网络抓取是否有必要?必要性测试是一种事实性评估,旨在明确信息处理对于实现目的检验中确定的利益是否必要。ICO认为,目前,大多数生成式人工智能的模型训练只能使用通过大规模抓取获得数据,一般的数据收集无法支撑模型训练需要的数据量。尽管未来的技术发展可能会提供新的解决方案和替代方案,但目前几乎没有证据表明生成式人工智能模型可以使用数据库进行替代性开发。综上,ICO认为当前通过网络抓取数据进行生成式人工智能模型的训练是必要的。


第三,平衡性测试, 即个人权利是否凌驾于生成式人工智能开发者的合法利益之上?如果人工智能模型开发者确定使用网络抓取的数据进行生成式人工智能训练是合法的目的,并且该处理对于该目的是必要的,那么最后一步是评估对个人的影响,确定这些个人的利益、权利和自由是否优先于开发者或第三方所追求的利益、权利和自由。简言之,模型开发对个人利益的影响是否与其背后实现的合法利益相称。生成式人工智能模型的开发会对个人利益有损害风险。网络抓取数据是一种“无形的处理”活动,个人并不知道他们的个人数据正在以这种方式被处理。这意味着个人信息主体可能会失去对个人数据的控制,或者无法行使英国数据保护法授予的个人信息主体权利。上述风险被称为上游风险,此外在生成式人工智能模型具体应用的阶段还存在下游风险。例如,生成式人工智能模型可用于生成不准确的个人信息个人困扰或名誉受损,被黑客利用生成针对个人的钓鱼电子邮件等。


个人利益是否优于模型开发背后的正当利益,取决于模型开发与应用对个人权益、权利以及自由影响的严重程度。为在损害的个人利益和维护的合法利益之间实现平衡,模型开发者需要采取相应的风险控制措施,减轻模型开发与部署应用过程中可能给个人利益造成的风险损害,使损害的个人利益与实现的合法利益相称。换言之,通过采取风险控制措施,减少个人利益的风险损害,使个人利益风险损害与合法利益相称。生成式人工智能模型的市场投放方式不同,开发者为进行利益平衡所需采取的风险控制措施也会有所不同。


第一,初始开发者直接部署应用生成式人工智能模型。 此时,为进行利益平衡,开发者应完全实现对生成式人工智能模型应用的控制。具体来说,模型开发者应采取以下举措:1)控制并证明生成式人工智能模型是否实际用于目的测试所述的合法利益;2)评估个人面临的风险(无论是在生成式人工智能开发期间提前评估,还是作为部署后持续监控的一部分);3)实施技术和组织措施以降低个人风险。


第二,由第三方(而非初始开发者)通过应用程序接口部署生成式人工智能模型。 此时初始生成式人工智能开发者可以通过对特定部署实施技术控制(如输出过滤器等)和组织控制,确保第三方的部署符合生成式人工智能训练开发阶段确定的合法利益。例如设置应用程序的访问权限、监控人工智能模型的应用。


第三,将开发的生成式人工智能模型提供给第三方。 此时,初始开发者对模型应用的控制受限,因为初始开发者能无法知道在初始训练阶段确定的合法利益是否在实践中得以实现。此外,如果第三方对模型的使用不受限制,很难清晰、准确地表达开发初始模型时所欲保护的合法利益。对此,初始开发者应与第三方订立合同,以合同方式实现对生成式人工智能模型应用的监控,监督第三方对模型的部署应用并要求第三方按照合同要求采取相应的组织和技术措施。


以下几种情形不符合相称性要求:1)数据用于模型训练超出个人的合理期望;2)处理的数据是敏感数据例如例如特殊类别数据、刑事犯罪数据或儿童数据;3)数据用于模型训练会对个人产生重大不利影响。


4


结论


综上,生成式人工智能模型的开发者如果能够认真履行个人数据保护的法律义务,并能在实践中证明其实现了对合法利益的保护,那么开发者以网络抓取方式训练生成式人工智能模型是可行的、合法的。与此同时,初始开发者应注意做好以下几个方面:确定并证明存在正当的合法利益;对开发的生成式人工智能模型应用进行适当控制以平衡个人利益和合法利益;展示合法利益将如何实现,并采取措施有效减轻实现对个人利益的风险损害。







请到「今天看啥」查看全文