原文:cybernews
作者:Paulina 某初创公司作家
仅供学习,如有侵权,请联系删除!
在如今AI飞速发展的背景下,越来越多的企业开始训练起独属于自己的AI大模型。从现实来看,AI大模型能够为企业提供深入的洞察和预测,企业可以通过由AI大模型所分析出来的结论做出更科学的决策,比如市场趋势分析、消费者行为预测等。同时,AI大模型也可以帮助企业自动化完成一些重复性、繁琐的工作,比如自动回复客户邮件、自动分类垃圾邮件等,从而提高工作效率。
但对于AI大模型而言,其最关键的一点在于:AI大模型需要各种数据进行训练。比如根据历史数据和实时数据,AI大模型可以优化业务流程,提前发现潜在问题并采取相应的措施来避免。再比如,通过分析客户反馈意见等数据,AI大模型可以帮助企业更好地理解客户需求,从而提高产品质量。
因此,对于需要海量数据的AI大模型而言,数据安全成为了AI发展史上永远绕不开的话题和挑战。近日,就有国外团队发现,某头部车企以及其他一些公司正在使用用户敏感数据以训练AI模型。
2024年2月1日,国外研究团队发现了一起数据泄露事件,事件主体是一家名为Rawdamental的数据收集和分析公司,由于其内部系统的配置问题,导致了许多与之合作的企业数据都遭到了泄露,其中不乏各企业用户的个人隐私和敏感数据。
Cybernews的作家Paulina 对此表示,尽管在荷兰公司注册处找不到名为Rawdamental的公司,但多家荷兰企业都使用了Rawdamental的服务。“此次发现的安全事件影响了十多家公司的用户,这些公司可能都使用了Rawdamental的数据收集服务,其中还包括拥有近7000名员工的跨国汽车经销商Van Mossel。”
Paulina列举了此次受泄露事件影响的公司,他们分别为:
1、汽车经销商——Van Mossel
2、软件公司——Simpul.nl 和 Divtag.nl
3、摩托车零件市场——Motorparts-online.com
4、营销机构——InovaMedia
5、烟花零售商——Vuurwerkbestel.nl6、室内装饰零售商——Oletti.nl7、圣诞礼物服务商
——Kerstpakkettenexpress.nl
和kerstcomplimenten.nl
8、荷兰赛车粉丝俱乐部——Ttassen-fanbase.com
Paulina表示,之所以Rawdamental需要收集各企业的用户数据,旨在各企业提供初始数据集,以训练AI模型来预测用户行为。“虽然使用企业AI模型的道德性值得商榷,但当前的数据泄露事件表明了,此类服务的安全性仍然值得关注!”
目前,Cybernews已经联系了使用Rawdamental服务的公司,但尚未收到回复。Paulina说:“我们的调查发现,此次泄露是由于Kibana公司的仪表板(一个流行的在线工具,用于搜索、可视化和分析存储的数据)缺少身份验证而造成的。这个缺失身份验证的仪表板导致Kibana内部数据自2021年12月以来就一直是可以公开访问的状态。”
据Paulina所言,该公司尚未对Cybernews或荷兰计算机应急响应小组(CERT)的联系做出回应。
Rawdamental的商业模式是基于为其客户收集大量的数据,以创建网站访客的独特画像。通过收集点击流数据,该公司编制了关于用户行为的庞大数据块,这些数据块可以被公司用来训练他们的AI模型。
Paulina对此表示,使用此类数据集来训练AI是非常危险的。“我们对泄露的数据进行了调查,结果显示,在收集的数据中包含了用户个人信息和隐私。也就是说,基于用户私人数据训练的模型,可能会在用户未经同意的情况下泄露敏感信息。”
Cybernews的安全研究员Aras Nazarovas同意此观点,他表示:“这是社会环境中,AI工具层面一个众所周知的风险,多个组织已禁止这样的使用方法,因为担心敏感的公司信息可能会泄露给相关的运营商。此次泄露事件也提醒了我们,此类风险同意存在于传统的在线工具中。”
1、用户的IP地址
2、访问的URL
3、访问的页面标题
4、用户代理
5、用户名以及用户正在参与的项目
6、基于不同类型元数据创建的用户标识符
Nazarovas说,除了数据泄露为威胁者创造了明显的安全漏洞外,另一个让人担忧的地方在于,大多数公司对用户数据的匿名化处理不当。“比如像Rawdamental这样的服务,匿名化用户数据是至关重要的。尽管该公司确实在匿名化方面做出了实践,但调查显示,他们未能预见到所有潜在的情况。”
Nazarovas拿Rawdamental的客户平台举例,他表示,这些平台很可能专门用于会计,而在这些平台上的标题标签中有着可识别个人身份的信息,比如姓名和项目,这些信息会出现在浏览器的标签名中。“显然,Rawdamental没有为这种情况实施保护措施,因此他们收集到了敏感的用户数据。此外,收集的数据中还包含了用户的IP地址,这表明在完全匿名化数据集方面的实践是无效的。”
另一方面,Paulina 指出,除了Van Mossel之外,大多数受影响的服务都没有披露那些“用于跟踪和指纹识别的第三方cookie”。“这意味着,公司隐私政策的模糊性让用户无法确定他们的个人信息是否已与Rawdamental等第三方服务共享。”
国外相关报道发布以后,Rawdamental主动联系了Cybernews,声称内部已经开始调查此事,并已经开始实施相关措施以“增强其系统的安全性”。
据Rawdamental公司发言人声称,开放的Kibana实例是某测试项目的一部分。能够确定的是,项目在IP地址身份验证的安全方面出现了错误,但这些数据并未用于AI训练,而仅仅是被收集了。
另一位发言人在电子邮件中回复道:“我们现在的首要任务是确保数据安全,当然内部已经开始通知了可能受影响的合作方。我们将与有所关联的公司保持密切合作,协助他们解决这一事件可能带来的潜在影响。对于此次事件的发生我们深感遗憾,我们会向受影响的客户表示诚挚的歉意。”
通过此次国外的数据泄露事件,我们不禁会思考:在数据安全如此重要的背景下,企业还能否继续使用个人数据来训练AI大模型?从国内各专家的回应来看,在科技、经济如此激烈竞争的国际形势下,这是必然的趋势,但企业使用数据时必须遵守相关的法律法规和伦理准则,也就是说,企业必须确保所使用的用户个人数据具有合法来源,并已获得用户的明确同意或符合法律、行政法规规定的其他情形,比如《网安法》、《数安法》、《个保法》等就是企业最好的依据。