专栏名称: 数据何规

数据安全及个人信息保护。

OpenAI违反GDPR被罚1500万欧元，来龙去脉及合规启示

数据何规 · 公众号 · · 2024-12-21 00:03

正文

一日可能发布多篇推送，推荐标星⭐本号，避免错过数据合规新鲜资讯～

来源：Garante官网

简评：看完之后感觉OpenAI真的很努力了，但还是没能逃过一劫，这执法颗粒度，真是让人害怕。

一共四大罪状：①数据泄露通知违规；②缺乏数据处理合法性基础；③未成年人保护措施不足；④输出数据不准确。

根据处罚文书梳理来龙去脉，也有一点自己的思考，仅供参考。

懂意大利语的可以直接看处罚文书。

意大利隐私保护机构（ Garante per la protezione dei dati personali ，以下简称“Garante”）结束针对Open调查。 OpenAI需进行为期六个月的宣传活动，并支付1500万欧元罚款。

Garante 指出， OpenAI在2023年3月的数据泄露事件中未能及时通知监管机构，并且在没有合法依据的情况下使用用户数据训练ChatGP T，隐私政策违反透明原则 。同时， OpenAI未能建立年龄验证机制 ，可能导致未成年人接触不适合其年龄的内容。此外，OpenAI还存在输出数据准确性不足的问题。

为确保数据处理的透明度， Garante 要求OpenAI在六个月内开展一次包括广播、电视、报纸和互联网的宣传活动。宣传内容需与Garante协商，以提高公众对ChatGPT工作原理的了解，特别是关于如何收集用户数据用于人工智能训练，以及用户的权利，包括反对、修改和删除权等。这是首次根据意大利《隐私法》（ Codice Privacy ）第 166条第7款规定所采取的措施。

考虑到OpenAI在调查中的良好合作态度，罚款金额为 1500万 欧元（约1.14亿人民币） 。

最后，鉴于OpenAI在调查期间已将其欧洲总部设立在爱尔兰，Garante根据所谓的“一站式服务”规则，此案件将移交给爱尔兰数据保护机构，以便继续调查任何持续性违规行为。

罗马，2024年12月20日

引言

2023 年 3 月 20 日，ChatGPT 出现严重技术漏洞，致使部分用户聊天记录信息泄露，具体涉及姓名、邮箱、信用卡部分信息（如后四位数字及有效期）等敏感数据。

迅速响应，主动展开调查，发现 OpenAI 在 ChatGPT 服务的数据处理环节存在诸多关键问题：

① 在用户信息告知方面严重不足 ，未向用户和相关利益者清晰说明数据收集、处理的目的、方式及他们所拥有的权利等重要信息。

② 数据处理的法律依据模糊不清 ，缺乏明确且合法的基础来支撑其大规模的数据处理行为。

③ 输出数据 准确性不足 ，ChatGPT 生成的输出内容与实际数据存在偏差，无法保证数据的可靠性。

④ 对未成年人的保护措施近乎缺失 ，未采取有效手段防止未成年人接触不适当内容或保护他们的个人数据。

针对上述问题，2023 年 3 月 30 日，Garante 依据相关法规对 禁用OpenAI ，旨在立即遏制潜在的数据风险。

随后，在 4 月 11 日，鉴于 OpenAI 承诺采取整改措施，Garante 暂停了该临时限制，但同时明确要求 OpenAI 进一步完善数据处理规范，具体包括：

①在其官方网站显著位置 发布详细且易于理解的信息说明 ，涵盖数据收集和处理的所有相关细节；

② 提供便捷有效的工具 ，方便用户和相关主体行使对个人数据处理的反对权等重要权利；

③ 重新审视并修改数据处理的法律依据 ，确保其合法、合规性；

④ 实施严格的年龄验证机制 ，防止未成年人在无监管的情况下使用服务等一系列关键措施。

⑤ 开展信息宣传活动 ，OpenAI 需要通过各种媒体渠道向公众传达这些关键信息，确保公众了解自己的数据在 ChatGPT 服务中的使用情况，并为他们提供行使数据权利（如删除数据）的途径。

Garante为各项措施设定了严格的完成期限，以督促 OpenAI 尽快整改。

OpenAI的回应与行动

OpenAI 在收到 Garante 的要求后，积极采取行动并及时回应。 2023 年 4 月 28 日，OpenAI 告知 Garante 已完成部分整改任务：

①在网站建设方面，在隐私政策和帮助中心发布了与模型训练相关的隐私政策，详细说明了数据在训练过程中的使用方式和范围；

②为用户提供了专门的工具，用户可通过该工具便捷地行使数据权利，如反对数据处理、申请数据更正或删除等。

③确定将合法利益作为将用户个人数据用于AI训练的合法性基础。

④在年龄验证方面，实施了年龄验证机制，对于新用户，要求提供出生日期以确保其年满 13 岁，对于 13 至 17 岁的用户，需获得家长同意才能创建账户；对于已注册用户，也要求声明年龄并在必要时提供家长同意证明。

2023 年 5 月 15 日，OpenAI 再次告知已完成信息宣传活动要求。其采取的措施包括在《共和报》等报纸上发布首席技术官的采访，在报纸上购买广告版面发布与 ChatGPT 服务相关的教育材料，在官方网站设置专门面向用户的页面提供详细信息，以及与 Garante 合作制作教育视频等。

然而，Garante 对其媒体宣传活动的执行情况并不满意。 Garante 认为 OpenAI 在实施这些活动时，未按照规定提前与其进行充分的沟通并达成一致，导致活动内容和形式可能无法有效传达关键信息。 而且，从实际效果来看， 这些活动未能达到预期的宣传目标，没有充分覆盖到目标受众，使得广大用户和相关利益者对数据处理等重要问题的认知并未得到显著提升。

对此，OpenAI 表示愿意进一步改进并加强与 Garante 的合作，以确保后续措施能够符合要求并取得良好效果。

在整个调查过程中，OpenAI 还主动向 Garante 提供了关于数据训练来源、数据处理保障措施等方面的详细信息。

在数据训练来源上，表明其主要从互联网公开信息、第三方授权信息和用户提供信息三个渠道获取数据，并在数据处理过程中采取了一系列措施来保障数据安全和用户隐私。例如，通过限制个人数据在训练数据中的使用量，避免过度收集和使用用户个人信息；

采用过滤技术，有效排除有害信息，如仇恨言论、成人内容、垃圾信息等，防止这些不良信息对模型训练产生负面影响；

同时，为用户提供选择是否允许使用其聊天记录进行训练的权利，尊重用户的自主意愿。

调查行动

Garante 为深入了解情况，两次发出信息请求获取调查所需的关键元素，这两次请求分别依据GDPR和意大利相关法规（ Codice Privacy ）的特定条款进行。

OpenAI 对这些请求积极回应，提供了大量详细信息。

在数据训练方面，OpenAI 详细说明了 ChatGPT 的训练数据来源。

其一是互联网公开信息，在收集过程中，会先对数据进行筛选和过滤，排除那些包含大量个人数据的网站以及暗网数据，并在模型微调阶段利用 Azure Cognitive Services 进一步去除个人信息，确保数据的合法性和安全性。

其二是第三方授权信息，通过合法授权获取高质量的数据集，在选择过程中会严格评估数据集的来源和质量，确保其符合数据保护要求。

其三是用户提供信息，在用户与服务交互过程中获取，并通过专门的 “训练者” 进行整理和筛选。

同时，OpenAI 明确其数据处理的法律依据为 合法利益 ，并 详细阐述了在数据处理过程中的隐私保护措施 。例如，为用户提供多种选择，方便他们控制自己的数据是否被用于训练；实施一系列数据保护技术，如数据加密、访问控制等，防止数据泄露和滥用。

此外，OpenAI 还提供了关于年龄验证、数据准确性处理等方面的信息和相关文件。

在年龄验证方面OpenAI介绍了正在探索和实施的多种技术方案和验证流程，以确保能够准确识别用户年龄，包括：自拍估算年龄、证件扫描。

在数据准确性处理上，说明了如何对训练数据进行审核和优化，以及在模型生成输出后如何对不准确信息进行处理，如通过人工审核和自动纠错机制相结合的方式，提高数据的准确性和可靠性，但这些措施仍需根据 Garante 的要求进一步完善和改进。

听证会

2024 年 4 月 11 日，按照相关法规规定的程序和要求，在Garante的罗马总部举行了一场重要的听证会。

OpenAI 在会上着重强调了自首次接到 Garante 措施要求以来，便积极与 Garante 展开合作与沟通的历程。在这期间，OpenAI 按照 Garante 的指示，逐步采取了一系列关键的改进措施，如对数据保护影响评估（DPIA）和合法利益评估（LIA）等文件进行完善和更新，使其更加符合法规要求，同时不断优化内部的数据处理机制和流程，确保数据处理的合法性和安全性。

OpenAI 详细介绍了公司的组织架构和发展情况。其成立于 2015 年，最初是一个 非营利性 的研究组织，旨在推动人工智能技术的发展。随着业务的拓展，在 2023 年成立了具有特定性质的控制公司，通过这种架构来确保公司在实现人工智能造福人类的使命的同时，能够有效管理数据处理等相关事务。

在数据保护的透明度方面，OpenAI 表示已通过多种渠道发布了大量相关材料，包括系统信息表、技术报告、博客文章和其他研究成果等，旨在向用户和公众传达其数据处理的原则和方式。

然而， OpenAI 也承认在 ChatGPT 推出初期， 由于对用户数量的快速增长和意大利市场的重要性预估不足，在数据保护方面存在一些不足之处 。例如，隐私政策在初期可能不够完善，但在后续已根据 Garante 的要求和反馈不断进行改进，使其更加清晰和全面。

在资源方面，OpenAI 提到在 2023 年初公司员工数量相对较少 ，但在面对来自多个数据保护机构的大量信息请求时，积极调配资源，努力应对。

在数据处理保护措施上，OpenAI 强调其采用了 基于透明、隐私设计 / 最小化原则和用户选择退出机制的隐私合规模式 。

在模型训练的不同阶段，如：（i）在数据收集阶段，通过严格筛选数据来源和进行数据去重处理，减少不必要的个人数据收集；（ii）在训练阶段，利用人工审核（如 Reinforcement learning with human feedback，RLHF ）等方式，确保模型不会生成有害或不准确的信息，尤其是涉及个人隐私和敏感信息的内容；（iii）在数据使用阶段，为用户提供明确的选择和便捷的操作方式，方便他们随时控制自己的数据使用情况。

针对 Garante 提出的各项违规指控，OpenAI 再次进行了详细的解释和辩护。

对于数据处理作为合法性基础的问题， OpenAI 进一步说明了在服务推出后积极开展相关评估工作的过程和困难；

对于隐私政策缺陷， OpenAI 强调了已采取的改进措施和未来的完善计划；

对于未成年人保护缺失， OpenAI 阐述了已实施的其他保护措施和正在研发的年龄验证技术的进展，包括引入供应商Yoiti，（i） 基于Yoti 应用或网站自拍的年龄估算 （照片立即删除）、(ii) 身份证件扫描 （依情况在会话完成或 25 小时后删除数据）、(iii) 信用卡关联临时交易 （Yoti 仅获取支付授权）等方式，且所有方案中 Yoti 只向 OpenAI 传会话 ID 和年龄验证结果。Yoti 作为数据处理控制者，其数据处理受 GDPR 第 28 条协议约束且在英处理数据，同时它符合多项标准并获相关认证和批准。

对于数据不准确问题， OpenAI 按监管要求告知用户数据收集截止日期来管理准确性，还评估与出版商合作项目以融入新闻，通过用户界面 免责声明提醒用户模型不准确性 ，对涉及个人数据的不准确性用后训练活动或输出数据过滤器处理。

OpenAI 请求 Garante 在做出处罚决定时，能够充分考虑到公司在数据保护方面所做出的积极努力和改进措施，但 最终 Garante 仍根据全面的调查和听证情况，综合权衡各种因素后做出了处罚决定 。

管辖权限

根据GDPR第 3 条的明确规定，判断数据保护监管机构的管辖权需要综合考虑处理者是否在欧盟设立机构以及服务是否针对欧盟用户等关键因素。

在本案中，虽然在 2022 年 11 月 30 日向公众提供服务时，OpenAI 未在欧盟设立机构，但由于该服务涉及欧盟用户，且其服务性质和推广方式符合GDPR中对欧盟管辖权的界定条件，因此Garante拥有对 OpenAI 数据处理行为的管辖权。

具体而言，根据相关规定和指导原则，如欧洲数据保护委员会（EDPB）发布的指南和欧盟法院（CJEU）的判例，在判断服务是否针对欧盟用户时，会考虑多种因素，包括服务的宣传推广是否涉及欧盟地区、服务的可访问性和实际使用情况等。

ChatGPT 在线免费提供 的方式以及在欧盟地区的广泛使用和传播， 使得其明显符合针对欧盟用户的条件 。

对于 OpenAI 数据处理违规行为的监管和处罚权限，Garante 对 2024 年 2 月 15 日前发生的非持续性违规行为具有明确的监管和处罚权。

对于部分持续性违规行为，在 OpenAI 于 2024 年 2 月 15 日在欧盟设立机构后，根据相关规定，将部分与持续性违规行为相关的文件移交给爱尔兰监管机构（作为牵头监管机构）。

这是为了确保在欧盟范围内实现统一和有效的监管，同时 Garante 仍保留对已发生违规行为的部分处理权限 ，以便在必要时提供协助和信息，确保整个监管过程的连续性和完整性。

违法行为

（1）数据泄露通知违规（违反GDPR第 33 条）

2023 年 3 月 20 日的数据泄露事件发生后， OpenAI 未按照GDPR第 33 条的规定，在 72 小时内直接向 Garante 进行通知。虽然 OpenAI 已将该事件通知给 爱尔兰监管机构 ，并在其官方网站发布了相关信息，也尝试通过电子邮件告知部分可能受到影响的用户，但这些措施 均不能替代向 Garante 的直接通知 。

因为此次事件涉及到意大利的 440 名用户，根据规定，在欧盟单一机构机制不适用的情况下（ 当时 OpenAI 未在欧盟设立机构 ）， OpenAI 有义务直接向 Garante 报告。

该违规行为于 2023 年 3 月 23 日完成，性质为非持续，即该违规行为在特定时间点发生后未持续存在。

//评：等于说，如果没有在欧盟设立总部，一站式监管就不适用，一旦有数据泄露，只要有该国家的用户数据，就得汇报给那个国家的DPA，有几个算几个。好变态哦。但如果给监管群发会不会有引来更多调查和处罚呢？

（2）数据处理合法性基础缺失（违反GDPR第 5 条第 2 款和第 6 条）

截至 2023 年 3 月 30 日，OpenAI 无法证明在 2022 年 11 月 30 日 ChatGPT 向公众推出之前，已经确定了数据处理的合法依据。

尽管 OpenAI 提供了数据保护影响评估（DPIA）和合法利益评估（LIA）等相关文件，但这些文件无法充分证明其在规定时间前完成了合法依据的确定。

例如，DPIA 的初稿于 2023 年 2 月 24 日完成，更新于 5 月 19 日，LIA 是在 Garante 明确要求后才提供且无日期，均晚于 ChatGPT 推出时间。

根据法规要求， 数据处理的合法依据应在处理活动开始前确定 ，并在向用户和相关利益者提供的信息中明确说明。

此违规行为于 2022 年 11 月 30 日发生，性质为非持续，表明在特定时间点存在法律依据缺失的问题。

OpenAI违反GDPR被罚1500万欧元，来龙去脉及合规启示

正文

请到「今天看啥」查看全文