探寻合规之道,共筑数据保障之堡。专注为数据安全管理者、技术专家、隐私法务、律师等专业人士打造的知识共享与交流平台。
点击 "合规社" > 点击右上角“···” > 设为星标⭐
编辑
| 郑烨
可信数据空间是最近几个月最火的概念,个人一直介于懂和不懂之间。最近和一位朋友电话沟通近1小时,从数据安全视角讨论了“可信”,记录相关要点,形成
【数安说】
第5篇文章。
国家数据局2024年发布《可信数据空间发展行动计划(2024—2028年)》,定义如下:
“可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。”
从它的定义看出,
可信数据空间是一种数据流通基础设施、应用生态和数据市场的重要载体
,关键在于如何理解“可信”的含义,本文基于数据业务场景下,从安全视角探讨“可信”的内涵。
以前的信息系统以业务功能为主,功能使用中需要使用数据,而数字化转型浪潮,数据先行的理念,将数据汇聚、统一管理,打破先前数据存储在各个系统,通过网状式对接各类数据,造成数据质量差、更新不及时、内外不一致等问题。
数字化转型中,围绕数据流动过程来重构信息系统,先将大量的信息系统进行重组、改造,大量的数据集中,建设大数据平台对各类数据进行收集、存储、加工使用,
形成数据“内循环”对企业内部使用,数据“外循环”产生价值,满足外部企业的数据需求。
基于数据业务场景,从参与角色看,涉及数据提供方、数据开发方、数据运营方、数据使用方、数据监管方等;从数据业务涉及基础设施和工具平台等方面看,可分成三段:
数据开发场地(线下)、大数据开发平台(线上)、数据产品服务(对外)。
数据开发场地涉及开发终端、网络环境、零信任网关、云桌面、各类数据开发客户端等;大数据平台以采集、存储、加工处理为主,涉及数据开发平台、数据沙箱等;数据服务平台通常以API接口、前置库的库表对接、SFTP等方式对内、对外提供数据使用,也包括隐私计算平台等方式。
了解数据业务的场景及相关知识背景后,我们对“可信”的概念进行拆解,形成七个方面的理解:
包括物理端可信和软件运行环境可信。
数据开发需要可信的数据开发场地,涉及物理场地安全,包括闸机、门禁、监控、窗户等物理安全。开发人员进入场地后,所使用的数据开发终端(设备)可信,如国产硬件。
包括设备上运行环境的可信,包括基础操作系统、运行软件,各类基础的安全基线配置等。如国产操作系统。此外,终端环境运行的软件可信,如统一授权的正版软件。还包括应用进程的可信,哪些进程允许执行,可执行的权限控制等。
在实际解决方案中,通常可采用
“瘦终端”+“云桌面”
方式,或采用零信任网关或者数据沙箱方式,尽可能保证端点侧的可信。不过,这两种方式都是集中式资源分配和授权管控,都可能存在资源瓶颈或网络带宽瓶颈。
包括网络接入可信和数据开发接入可信。
网络接入可信是指开发场地接入大数据平台的网络可安全接入,比如专线、零信任网关、网络传输通道HTTPS等。其中零信任网关更多替代VPN,采用“隐身和敲门”机制,通过网络隐身,实现网络的可信接入,同时基于细颗粒度属性控制,基于终端、IP、MAC、账号密码、双因子等方式加强身份可信,也可以实现不同应用的访问接入授权管控。
数据开发接入可信,是指数据开发过程中数据本身不出域,不留存在终端侧。可以采用服务器端数据沙箱方案解决,数据沙箱中部署可信的软件客户端,为每个客户挂在数据网盘。
用户使用沙箱时,启用运行环境,使用结束时回收相关计算资源,通常相应的数据盘不回收。需要注意,数据沙箱服务端统一提供数据开发端各类软件(chrome、ssh、数据库客户端等工具软件),可实现数据开发人员对能使用哪些应用程序的控制。真实数据的加工处理更多在大数据平台侧,因此数据沙箱更多作为数据开发接入侧的可信方案。
数据开发可信是指在大数据平台进行数据处理加工过程的可信,这块更多是身
份权限管控和数据内容权限管控和数据开发空间的隔离管控。
比如每个开发方有独立的账号、空间和数据集,进行单独开发。目前了解的不多,后续有更新再补充。
正当合法采集数据、购买数据,需要保证数据源的可信,除了基础的合同、协议约定外,可以采用安全领域
“威胁情报”
的方式,对已采集或购买的数据进行监测,如果出现数据不可信情形,及时识别并中断数据业务,确保数据源及数据使用过程中的可信。
涉及业务过程中,所有IT环节可能使用硬件和软件的“可信”,比如国产操作系统、中间件、数据库等,国密算法sm2、sm3、sm4等。比如国产的网络设备、安全设备等,这些都是“可信”的基础。
身份是可信的核心基础之一,即“证明你就是你”的过程,
除了常规的用户名密码、双因子之外,更多是指采信外部权威的身份认证中心。通常可对接权威的身份源进行验证,如国家网络身份认证平台、运营商的实名认证等,或对接政府提供公共应用,如上海随申办等。也包括企业侧,作为数据运营管理方规定的身份认证规则。
保障所有IT环节可信后,对于各类人员对数据操作的可信,也需要进行防范和管控。运维人员进行RDP\SSH删除等高危操作时,除了对基础身份验证外,对输入各类命令等进行规则识别及限制操作,避免操作上的不可信。数据库人员执行危险SQL操作时,应具备解析SQL能力,对危险语句进行阻断操作。此外,在应用程序功能涉及输入、输出、文件导入导出等环节时,需要从程序设计上实现操作上的安全校验。
上述提及7种“可信”,在我们日常工作基本都会涉及,只不过我们更多在“用可信”,而“设计可信”的过程,通常已在各类IT项目集成时完成了,所以我们对“可信”感知不强烈。简要理解的“可信”是一套综合、复杂的组合措施,由各类单点侧可信构成的综合“可信“。
提及“可信”时,很容易联想到安全领域中
“信任传递”
的概念,《CISSP官方学习指南》中大致定义如下:
如果A信任B,且B信任 C, 那A通过传递属性继承C的信任。这与数学方程类似:如果 A=B B=C, 那么 A=C 。在上例中,当A向B请求数据而B向C请求数据时,A收到的数据其实来自于C。
信任传递是一种严重的安全问题,因为它可以使人绕过之间的约束或限制,尤其是当都支持与交互的时候。例如,假设一家机构为提高员工工作效率而拦截其对游戏网站的访问。因此,员工(A) 无法访问某些互联网站点(C) 。但是,如果员工能访问 Web 代理、虚拟专用网(VPN)或匿名服务,就可通过这些手段绕过本地网络限制。
因此,在“综合可信”的环境下,如何避免信任传递问题也是值得探讨的一个问题。