前两种方式在三星的公开文件当中或可窥见一二:“您需要登陆谷歌账户才能充分利用 Galaxy AI 功能,该账户允许谷歌根据您的互动提供定制服务。”[6],并且在用户使用相关服务时会显示谷歌搜索界面和图标。第三种方式如部分终端厂商与百度云千帆、豆包等云端大模型合作,在操作界面并未明确注明具体的AI服务功能提供者,于用户而言,输入与输出都是通过终端智能体。在此情况下,或可认定为委托处理关系,即终端厂商将面对用户独立承担所提供的AI功能服务涉及的全部数据安全责任。
如上分析,端侧AI带来了全新的数据处理模式,打破了传统移动互联网时代的隐私保护与数据安全秩序。对此,明确数据安全的责任边界是与AI技术研发同等重要的优先事项。企业主体之间,终端厂商、APP开发者、第三方云端AI厂商需要事先进行明确的权责划分与约定,探索建立可事后追溯的数据安全保护机制。在调用模型、插件,进行应用编排时,对过程进行可验证的记录管理。除此之外,终端厂商还应当为载有敏感信息等特定的APP(如金融、社交、医疗等敏感场景)开放相应技术机制,对于屏幕识别、操作等数据获取处理,允许APP明确拒绝。如三星明确声明:“不会进入 WhatsApp 等流行的第三方信息平台,因为这些平台的信息都是受保护的。”[7]
以往手机获取的信息主要包括用户设备及应用信息、日志信息、底层权限信息等;在端侧AI场景以及当前主要基于读屏录屏的技术方式,除上述全面的信息权限外,终端智能体还可以获取录屏的文件本身,并进一步通过模型分析,获取其所展现的身份、位置、支付等各类敏感信息。由于录屏场景十分丰富,其所识别的信息类型也将无法提前预测,并且极有可能包含了大量其他自然人的个人信息。
智能体甚至还可以将用户数据和插件、应用的三方数据进行混合利用。即使在最理想的情况下,这些文件不会被发送到云端进行理解和分析,但其本身的收集过程,是否与个人信息保护的基本原则——目的限制、最小必要相自洽,仍存在疑问。此外,“端侧处理”并不意味着脱离了数据保护规则的约束。即使这些录屏、截屏储存在本地,如果缺乏足够的信息披露,本地数据存储也并不意味着安全。例如,微软最新的AI“Recall”功能每隔几秒钟就会对用户的活动屏幕进行截图而遭到安全专家的强烈反对。尽管微软坚称,由于所有 Recall 数据都存储在本地,并通过设备加密或 BitLocker 加密,并不会侵犯隐私。但Absolute公司的一项调查发现,有42%的终端设备在任何时候都没有得到保护。”专家Weinberg表示其于用户教育方面也存在漏洞,并未明确收集的数据类型。[8]
当前,苹果在欧洲市场对AI功能的延迟和削减,也反映了此类冲突并非空穴来风。据报道,这主要是由于隐私、公平竞争和透明度方面的担忧。[9][10]科技编辑Mark Wilson指出, “苹果与用户的关系如此密切,以至于它在引入人工智能时,甚至不需要担心我们是否会同意。公平地说,似乎没有人在问,这些未知的人工智能系统怎么能分析我的私人文本?我们盲目地相信苹果会为了我们的利益使用我们的信息。”[11]
挑战3:当个人信息被用于模型训练时,如何保障用户权利?
“生成式AI技术需要数据进行训练,也需要从用户那里获取更多数据进行训练。GDPR对此有很多疑问。”[12]——埃隆·马斯克
在大模型研发的早期阶段,训练数据并不以个人信息为目标[13]。然而,随着各垂直领域的应用深入,涉及个人信息进行训练的投诉纠纷也时有发生。2024年3月,欧洲隐私倡导组织NOYB对社交媒体平台X提起GDPR投诉,因其擅自使用超过6000万欧洲用户个人数据训练其大型语言模型“Grok”,这一行为严重违反了GDPR关于准确度、访问权、更正权与被遗忘权的要求。[14]Meta和LinkedIn也面临类似投诉。[15]同样,在对苹果PCC进行考察时,专家也提出,一旦PCC被用于训练,那么数据将会被保留。无状态计算(stateless computation)——即不留下任何痕迹的计算——几乎是不可能实现的。[16]
目前来看,终端实现持续的个性化服务,未来有大概率需要云端数据训练模型,如三星已明确声明“在云端处理数据的功能可能会用于模型训练”,那么,如何解决模型训练过程中有关个人信息的安全以及如何保证用户的个人权利就尤为重要。正如Noyb所提出的那样,智能体可能会错误地判断如用户的婚姻、健康状况、种族与宗教信仰等,并据此给予回答或建议。而用户想要进行更正却很难,因为其并非根据某一个确切的信息输出判断,而是多方数据汇聚判断得到的,并且很难从输入端进行更改。Open AI 在其隐私政策中也曾提出“鉴于我们的模型工作原理的技术复杂性,我们可能无法在每个实例中纠正不准确性。如果需要更正,用户可以填写表单。”[17]
此外,由于AI关键能力为自主化理解需求、自动推理策略以及自动完成任务,因此也会触发对于“自动化决策”的担忧。报告显示,欧洲民众尤其担心个人助理AI会侵犯他们的隐私并操纵他们的决定(“低信任度”从40% 到 71% 不等)[18],终端智能体能够跨越应用,进行多方汇聚分析,甚至直接做出行动(action),其自动化决策的范围和深度都将大大提升,无疑对用户带来更加深入的影响。
挑战4:从端到云,如何提供令人信任的数据安全方案?
短期内端侧模型能力有限,端云结合将是长期趋势。包括苹果、vivo、荣耀、三星等手机终端均与第三方云端大模型展开合作。此前,尽管终端厂商收集相关的个人信息,但对外传输的场景有限。而在终端AI时代,为了进行更精确的理解分析,终端智能体需要将数据发送到第三方云端进行处理,从而不可避免面临以下问题:[19]
一是如何建立明确且可执行的权责分配机制。由于终端可能合作的不止一个云端模型(如荣耀),在未来的生态布局当中可能涉及更多的云端通用、专业大模型,这需要终端建立更加完善的第三方安全管理机制。
二是能否实现可信任的安全保障水平。考虑到端侧模型能力有限,且模型训练和精调只能在线上,将有大量数据从端传输到云。尽管厂商多强调其在上传云端时进行了数据脱敏与加密处理,如荣耀声明其智能体在调用云端模型处理时会通过端侧防护网过滤用户隐私,vivo也声称“将对用户输入内容进行过滤,仅将训练后的模型更新匿名化后上报到服务器”。然而,就目前来看,各大厂商基本仍停留在宣誓性的声明、产品发布会上的介绍与白皮书中的只言片语中,未有更加进一步的的详细披露。
即使强如苹果,提供了自有的云端服务,并通过提供底层芯片安全加固、三层安全架构的PCC计算节点,在隐私、技术解释与告知方面仍旧受到质疑。如安全专家Adelin Travers提出,苹果目前只公开了有限的代码,外部对于PCC安全性的理解和信任将主要依赖于苹果自己的声明,而不是基于独立验证的结果。同样,由于同态加密(HE)的计算效率和可扩展性的限制,目前苹果仍需要在云端解密数据,而苹果并未明确说明这样的解密可能对用户造成的风险,也没有回答其未来是否会使用 PCC 来训练模型。[20] 苹果自有云端的安全性尚且面临如此之多的质疑,那么如何保证第三方的云端处理提供足够的安全水平更是充满挑战。
而从用户感知看,在数据已经被发送给第三方大模型处理时,很多用户无法区分两者,会误以为数据仍受到终端的保护,但其实第三方的隐私政策更加宽松,增加了敏感信息泄露的风险。此前三星公司员工就在使用ChatGPT时不慎泄露了公司的芯片机密信息。[21]马斯克也曾表示:“若苹果在操作系统中整合OpenAI,公司将禁止使用苹果设备。这被视为不可接受的安全违规行为。”
不盲目信任技术,但也无需“灾难性地担忧”[22]。在技术创新、制度规范、生态建设、用户教育的协同发展下,相信仍可以探索出面向AI时代的隐私保护与数据安全方案。如微软AI CEO苏莱曼所说:“这里的关键在于如何打造一种值得信任的技术,因为这将是一种非常亲密和个人化的体验。我们必须做好安全和隐私的部分。我认为真正的挑战在于如何设计对话,使AI伙伴能够明确地表达边界,能够说出‘这是我不准备参与的事情’”[23]。
2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。
大会汇集行业资深专家及领军企业,共同聚焦AIGC领域,围绕当下热点话题进行深度延展,探讨行业激烈竞争下的运营新思路、发展新模式!点击文章,回顾精彩内容~