大数据平台构建方法
严格遵循国家《电子病历基本数据集》《国家卫生信息标准基础框架》《卫生信息数据元目录》等数据平台建设标准与规范,将临床活动生产的所有数据通过ETL技术进行抽取、转换、清洗并转存到标准化的大数据平台的数据模型中,形成按领域组织、方便使用的临床数据集。
大数据平台立足于临床数据管理,包括数据存储、数据交互、数据安全、数据分析、数据容灾、数据容量扩展等为一体的数据中心管理系统,系统采用分布式数据存储和独有的数据加密技术,对临床数据中心进行全方位的管理。包括患者信息、医嘱、检查、检验、病理、手术、病案、病历、临床路径等,涉及数千个数据字段的采集、清洗、转码载入工作,涵盖HIS、LIS、RIS、CPOE、EMR和移动护理等各类业务系统,异构数据库涵盖SYBASE、SQLServer、Oracle,MySQL,数据时间范围包括信息化以来的历年数据及实时数据等。采用PDF、XML、关系型数据等数据存储技术,为临床数据分析、数据挖掘、智能医疗打下坚实基础。
在大数据中心的基础架构上构建研究型科研数据库,数据涵盖科教各领域的数据,实施服务包括数据领域有基线数据、随访数据、研究对象、研究人员、课题数据、教学数据、样本数据等,并以此数据库来支撑多中心研究工作的开展。同时,建立并完善患者主索引(EMPI)、患者360等平台服务,加强医疗协同服务,落实临床决策支持,保证临床数据完整性及满足临床科研需求,重点完善或替换电子病历、医嘱等系统,实现松耦合闭环流程。科研大数据平台构建见图1。
数据治理与标准化进程
大数据平台的数据来源于医院HIS、EMR、LIS、RIS、人事系统、治疗系统、随访系统等临床系统。真正使用这些数据,首先要进行数据治理与标准化,而数据标准化及归一化处理需要遵循国际与国内相关标准,其中涵盖SNOMED CT、LOINC、ATC、ICD10诊断编码、DRG分组规范,以及各类国标、标行的数据字典等内容。通过发布订阅、CDC、OGG等技术,遵循相关标准,使用作业管理、日志管理等平台,按照数据领域将采集到的原始数据放到数据模型中,实现数据的“可用化”加工,并通过数据制备策略,为不同的应用场景制备数据,实现数据“拿来即用”。形成涵盖临床数据、标本数据、管理数据、科研数据的海量数据资源。通过数据脱敏、数据加密等,在数据应用前对数据进行“安全化”处理,并通过访问控制平台,以数据账户为依据,给不同的用户、不同场景的数据访问权限。同时,在数据被使用过程中,有数据审计、使用留痕等一系列保障措施,让管理人员知道数据在什么时间、什么场景、被什么人使用。科学的数据治理的核心能力包括理解数据、解释和评估数据、管理数据以及使用数据。
临床科研自动化表单(eCRF)的建立
构建基于科研大数据中心的临床科研系统,将科研数据自动采集、临床试验观察表(CRF)智能化构建、智能化数据关联以及高效的随访模式结合,形成“流水线式”采集平台,帮助科研工作者快速便捷地完成大量重复工作,使医院科研管理进一步智能化。
其构建过程具有如下特点:①病种构建模式灵活:可以根据入组规则自动入组构建单病种数据库,也支持跨病种的大型队列研究。②科研模型可配置化:研究方向、研究项目、随访计划、eCRF表单自定义配置与表单自动填写。③数据衔接自动化:临床元数据自动对接eCRF表单,数据按入组规则自动校验。④数据处理智能化:科研病种库表单可以自动与数据中心数据关联,科研病种库表单可以自动与解析好的病历数据关联加载到表单中。见图2和图3。
基于大数据中心的搜索引擎工具
在科研大数据应用过程中可以使用科研搜索引擎来提高科研工作效率。传统的关系型数据库复杂的检索不仅要求对存储数据结构熟悉,而且检索可能消耗几个甚至几十小时的时间成本。基于大数据的搜索系统通过大数据搜索引擎技术,可以与科研人员快速交互相应,及时调整搜索结果,将原来需要几个月的数据搜索、挑选、整理工作缩短至几小时完成。并且提供跨异构的大数据多条件复杂搜索、模糊搜索、精确搜索、同义语、逻辑运算表达式及搜索结果2次筛查及授权导出等内容。大数据搜索工具极大地降低了科研人员在数据检索与提取方面的工作量,并且提高了科研工作整体效率。科研大数据搜索系统架构见图4。