真实世界数据来源非常广泛,既可是以特定目的开展的观察性研究数据,也可是非研究性质的数据,如多种机构(医院、医保部门、民政部门、公共卫生部门)日常监测、记录、储存的各类与健康相关的数据,既涵盖了从实际医疗过程中产生的数据(也可称为真实世界医疗大数据),也涵盖了从实际医疗过程搜集的小样本数据。
大数据作为一个重要概念目前被引入众多行业。医学领域的大数据涵盖范围广泛,尚缺乏统一和公认的大数据分类系统,根据数据收集内容的差异,可分为:一是常规医疗和健康数据,包括个人健康和医疗数据,如人口社会学特征、诊断、实验室检查、影像学检查、医嘱、手术、成本数据等,是我们通常所指的医疗大数据。二是在部分或全部收集常规医疗数据的基础上,根据特定研究目的收集生物标本检测的检测数据,如基因组学、蛋白组学、代谢组学等数据,常被称为生物医学大数据。从本质上讲,医疗大数据满足真实世界数据的所有特征,属于真实世界数据。但真实世界数据涵盖的范畴显然比医疗大数据更广,数据并不一定要求达到海量,也不一定强调数据的多样性。医疗大数据是真实世界数据与医学大数据的一个交集。
医学大数据的构建
医学大数据是指涵盖和健康相关的所有信息,不仅仅是医疗卫生信息,还需要包括社会背景,职业,经济收入,日常习惯,兴趣爱好等全面信息。
1.医疗大数据
通常所说的临床诊疗大数据指的就是医院医疗大数据。医院医疗数据是最主要的医疗健康大数据,产生于医院常规临床诊治、科研和管理过程,包括各种门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医保数据等。这些医疗数据中的大多数都是用医学专业方式记录下来的,以临床实践自然随机形式存在,是最原始的临床记录。从临床管理或研究角度看,这些数据是关于病人就医过程的真实记录,或者也可以说是临床医疗行为留存的痕迹,每一个数据都是有价值的,包括记录不完善或错误的数据,都可能隐藏了有待发掘和利用的重要医学信息。
医疗记录大数据的获得需要依赖于医疗大数据公司对医疗数据进行艰苦的清洗和整合,以整合为医疗大数据。
2.健康大数据
人群健康数据一部分来源于区域健康服务平台大数据,依托于区域健康服务平台的大数据是重要的医疗健康大数据之一,也是未来医疗健康大数据的发展方向。一方面,服务平台汇集整合了区域内很多家医院和相关医疗机构的医疗健康数据,致使数据量大幅度增加。另一方面,服务平台数据的收集事先都经过充分的科学论证和规划,数据比原先的医院数据更为规范。
目前互联网医疗、可穿戴设备、手机等可获得海量健康数据,但是通常缺乏专业的医疗数据。基于移动物联网的个人身体体征和活动的自我量化数据是一种新型的医疗健康大数据。此类自我量化数据包含了血压、心跳、血糖、呼吸、睡眠、体育锻炼等信息,一般利用可穿戴设备收集,除了有利于帮助了解自身健康状况以外,经过一定时期累积,在医学上会变得很有用,不仅有助于识别疾病病因或防控疾病,而且也有助于个性化临床诊疗,塑造全新的医疗或健康管理模式。
3.医疗费用大数据
相比于健康数据,医疗费用数据则更分散,更难以收集。最好的数据来源是是医保报销数据。但是在中国,医保以公立医保为主,数据掌握在政府手中,很难对外开放,不同地区的医保数据互不联通,而且医保数据以报销结算为目的,医学细节数据比较缺乏。
4.医保费用数据库
主要来源于国家医保抽样数据和地方医保数据(往往要通过学术合作的方式获取)。
5.其它类型数据
比如,环境等公共数据:气象,温度,水质,绿化等各种因素组成的有机整体,医疗健康大数据的现状是信息“孤岛”,政府部门、医疗机构、公共卫生机构、商业公司等等互不沟通。未来或可走向整合,迎来医疗大数据产业蓬勃发展。
用于研究高质量的数据来源有限,是开展真实世界研究面临最大挑战
在中国,真实世界数据匮乏,亟待开发并利用更多关于中国人群的真实世界数据;医疗服务机构的HIS系统各自为营,标准化程度低;部分KOL掌握局部地区单病种的真实世界数据。在技术层面,用真实世界数据评估治疗措施的风险和效果并进行决策的时间还相对短,方法学的系统性,技术上的完善性。在操作层面,中国需要提高各界对真实世界的认识、重视与投入;需促进多部门在开发及利用数据方面的合作。
此外,由于医疗体系的特殊性,目前绝大部分使用的高质量数据仍是非结构化数据,处理技术和处理能力存在困难。检测和诊断数据多为静态数据,分析预测结果有一定的滞后性。可穿戴设备开发有限,设备精度不够,更多用于消费而不是医疗级别的使用。数据聚合的方式还是处于初级阶段,自动化程度需要提高。
大数据分析重在解决潜在“偏倚”
大数据可以提供可利用的多源数据和强大的统计分析,保证了数据的多元性、重要性和时效性。对于数据的分析可以采用一体化的数据管理模式,避免原始数据的错误,提高数据处理效率和准确性。但在中国扔缺乏真实世界研究的环境,RCT仍然是目前最重要的获得证据的方法。潜在偏倚类型包括选择偏倚、信息偏倚、混杂偏倚、失访偏倚。比如,患者特征,包括年龄,性别,并发疾病,行为因素等;疾病特征,包括肿瘤分期,组织学特征,生物标记状态,转移位置等。那么如何减少偏倚和避免偏倚?我们需要从两个层解决问题,研究设计和统计分析来看。在研究设计中可从研究目的和问题、招募患者、设计和收集数据、分析数据和解释结果等尽可能收集与偏倚产生的测量相关数据。在统计分析层面可多层分析、多元回归、倾向评分、工具变量等来解决。
2017真实世界研究峰会日程
联系人:
邓梅
手机:+86 150 2640 7330
E-mail : [email protected]
点击【阅读原文】了解详情及报名