数据可信空间中“可信”的七种理解 | 数据安全视角

合规社 · 公众号 · · 2025-01-16 15:33

正文

探寻合规之道，共筑数据保障之堡。专注为数据安全管理者、技术专家、隐私法务、律师等专业人士打造的知识共享与交流平台。

点击 "合规社" > 点击右上角“···” > 设为星标⭐

作者 | Smart

编辑 | 郑烨

可信数据空间是最近几个月最火的概念，个人一直介于懂和不懂之间。最近和一位朋友电话沟通近1小时，从数据安全视角讨论了“可信”，记录相关要点，形成 【数安说】 第5篇文章。

国家数据局2024年发布《可信数据空间发展行动计划（2024—2028年）》，定义如下：

“可信数据空间是基于共识规则，联接多方主体，实现数据资源共享共用的一种数据流通利用基础设施，是数据要素价值共创的应用生态，是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。”

数据业务场景

从它的定义看出， 可信数据空间是一种数据流通基础设施、应用生态和数据市场的重要载体 ，关键在于如何理解“可信”的含义，本文基于数据业务场景下，从安全视角探讨“可信”的内涵。

以前的信息系统以业务功能为主，功能使用中需要使用数据，而数字化转型浪潮，数据先行的理念，将数据汇聚、统一管理，打破先前数据存储在各个系统，通过网状式对接各类数据，造成数据质量差、更新不及时、内外不一致等问题。

数字化转型中，围绕数据流动过程来重构信息系统，先将大量的信息系统进行重组、改造，大量的数据集中，建设大数据平台对各类数据进行收集、存储、加工使用， 形成数据“内循环”对企业内部使用，数据“外循环”产生价值，满足外部企业的数据需求。

基于数据业务场景，从参与角色看，涉及数据提供方、数据开发方、数据运营方、数据使用方、数据监管方等；从数据业务涉及基础设施和工具平台等方面看，可分成三段： 数据开发场地（线下）、大数据开发平台（线上）、数据产品服务（对外）。

数据开发场地涉及开发终端、网络环境、零信任网关、云桌面、各类数据开发客户端等；大数据平台以采集、存储、加工处理为主，涉及数据开发平台、数据沙箱等；数据服务平台通常以API接口、前置库的库表对接、SFTP等方式对内、对外提供数据使用，也包括隐私计算平台等方式。

七种“ 可信”

了解数据业务的场景及相关知识背景后，我们对“可信”的概念进行拆解，形成七个方面的理解：

端侧点 “可信”

包括物理端可信和软件运行环境可信。 数据开发需要可信的数据开发场地，涉及物理场地安全，包括闸机、门禁、监控、窗户等物理安全。开发人员进入场地后，所使用的数据开发终端（设备）可信，如国产硬件。

包括设备上运行环境的可信，包括基础操作系统、运行软件，各类基础的安全基线配置等。如国产操作系统。此外，终端环境运行的软件可信，如统一授权的正版软件。还包括应用进程的可信，哪些进程允许执行，可执行的权限控制等。

在实际解决方案中，通常可采用 “瘦终端”+“云桌面” 方式，或采用零信任网关或者数据沙箱方式，尽可能保证端点侧的可信。不过，这两种方式都是集中式资源分配和授权管控，都可能存在资源瓶颈或网络带宽瓶颈。

接入侧 “可信”

包括网络接入可信和数据开发接入可信。 网络接入可信是指开发场地接入大数据平台的网络可安全接入，比如专线、零信任网关、网络传输通道HTTPS等。其中零信任网关更多替代VPN，采用“隐身和敲门”机制，通过网络隐身，实现网络的可信接入，同时基于细颗粒度属性控制，基于终端、IP、MAC、账号密码、双因子等方式加强身份可信，也可以实现不同应用的访问接入授权管控。

数据开发接入可信，是指数据开发过程中数据本身不出域，不留存在终端侧。可以采用服务器端数据沙箱方案解决，数据沙箱中部署可信的软件客户端，为每个客户挂在数据网盘。

用户使用沙箱时，启用运行环境，使用结束时回收相关计算资源，通常相应的数据盘不回收。需要注意，数据沙箱服务端统一提供数据开发端各类软件（chrome、ssh、数据库客户端等工具软件），可实现数据开发人员对能使用哪些应用程序的控制。真实数据的加工处理更多在大数据平台侧，因此数据沙箱更多作为数据开发接入侧的可信方案。

数据开发“可信”

数据开发可信是指在大数据平台进行数据处理加工过程的可信，这块更多是身 份权限管控和数据内容权限管控和数据开发空间的隔离管控。 比如每个开发方有独立的账号、空间和数据集，进行单独开发。目前了解的不多，后续有更新再补充。

数据源“可信”

正当合法采集数据、购买数据，需要保证数据源的可信，除了基础的合同、协议约定外，可以采用安全领域 “威胁情报” 的方式，对已采集或购买的数据进行监测，如果出现数据不可信情形，及时识别并中断数据业务，确保数据源及数据使用过程中的可信。

软硬件 “可信”

涉及业务过程中，所有IT环节可能使用硬件和软件的“可信”，比如国产操作系统、中间件、数据库等，国密算法sm2、sm3、sm4等。比如国产的网络设备、安全设备等，这些都是“可信”的基础。

身份“可信”

身份是可信的核心基础之一，即“证明你就是你”的过程， 除了常规的用户名密码、双因子之外，更多是指采信外部权威的身份认证中心。通常可对接权威的身份源进行验证，如国家网络身份认证平台、运营商的实名认证等，或对接政府提供公共应用，如上海随申办等。也包括企业侧，作为数据运营管理方规定的身份认证规则。

操作 “可信”

保障所有IT环节可信后，对于各类人员对数据操作的可信，也需要进行防范和管控。运维人员进行RDP\SSH删除等高危操作时，除了对基础身份验证外，对输入各类命令等进行规则识别及限制操作，避免操作上的不可信。数据库人员执行危险SQL操作时，应具备解析SQL能力，对危险语句进行阻断操作。此外，在应用程序功能涉及输入、输出、文件导入导出等环节时，需要从程序设计上实现操作上的安全校验。

上述提及7种“可信”，在我们日常工作基本都会涉及，只不过我们更多在“用可信”，而“设计可信”的过程，通常已在各类IT项目集成时完成了，所以我们对“可信”感知不强烈。简要理解的“可信”是一套综合、复杂的组合措施，由各类单点侧可信构成的综合“可信“。

安全领域的“信任传递”问题

提及“可信”时，很容易联想到安全领域中 “信任传递” 的概念，《CISSP官方学习指南》中大致定义如下：如果A信任B，且B信任 C, 那A通过传递属性继承C的信任。这与数学方程类似：如果 A=B B=C, 那么 A=C 。在上例中，当A向B请求数据而B向C请求数据时，A收到的数据其实来自于C。

信任传递是一种严重的安全问题，因为它可以使人绕过之间的约束或限制，尤其是当都支持与交互的时候。例如，假设一家机构为提高员工工作效率而拦截其对游戏网站的访问。因此，员工(A) 无法访问某些互联网站点(C) 。但是，如果员工能访问 Web 代理、虚拟专用网(VPN)或匿名服务，就可通过这些手段绕过本地网络限制。

因此，在“综合可信”的环境下，如何避免信任传递问题也是值得探讨的一个问题。

数据可信空间中“可信”的七种理解 | 数据安全视角

正文

本文作者

请到「今天看啥」查看全文