专栏名称: 丁香园临床用药指南
丁香园旗下资讯平台:临床凶险,不会用药怎能行?拒绝假大空,专注分享最实用的用药知识,就是要让你成为用药高手。
目录
相关文章推荐
医药经济报  ·  中医视角下阿尔茨海默病诊疗流程与实践 ·  2 天前  
医药经济报  ·  基层药品联动思考 ·  5 天前  
51好读  ›  专栏  ›  丁香园临床用药指南

有了这个开放数据平台,发 SCI 不用愁!

丁香园临床用药指南  · 公众号  · 药品  · 2017-07-10 21:13

正文

2017 年 1 月 5 日,国家人口与健康科学数据共享平台对外公开发布。这次发布的数据量高达 49.1TB、2.8 亿条,包括生物医学、基础医学、临床、公共卫生、中医药学、药学、人口与生殖健康七大类。(数据库网址:http://www.ncmi.cn/1)




临床医学数据库的作用不容小觑


临床大数据是研究者及临床医生取之不尽用之不竭的宝藏。不仅能用于数据分析,发表 SCI 论文,更能指导临床实践。


而且此类基于现实世界的数据能够提供研究者无限的想象与假说,克服传统 RCT 的一些不足之处,为临床诊疗提供证据支持。


有鉴于此,西方国家很早以前就意识到了临床大数据的重要性,建立了许多成熟的数据库。比如危重症数据 MIMIC,目前已经更新到第三版,包含了 5 万多个 ICU 患者信息。


详细介绍见(http://www.nature.com/articles/sdata201635)




医生该如何利用数据共享平台?


中国是人口大国,有着样本量的先天性优势。因此建立和共享我国的人口与健康大数据显得尤为重要。国家人口与健康科学数据共享平台的诞生,意味着大量的中国人口与健康数据将开放给研究者。


如果说爱因斯坦的相对论是物理学的一次革命,那此次国家人口与健康科学数据共享平台的对外开放,无异于中国临床研究的一次历史性革命。


这些数据信息可以为中国的广大临床医生提供大量的研究素材,避免了数据收集上的重复投入。只要进行注册,就能获得海量的数据信息,应用于相关的研究。


以「地震伤数据集」为例,点击进入后可以查看数据集详细描述,会显示该数据集的每一位患者收集了哪些变量。点击「在线申请」菜单,就可以在线提交数据申请表单了。




目前基于该数据库已经发表了很多 SCI 论文,比如研究青少年腰围与呼吸功能相关性(Respirology. 2012 Oct;17(7):1114-8),研究北方人群前期高血压和糖尿病的流行病学研究。这些研究都离不开大数据的支持,而只有政府层面上给予支持才能完成如此大规模的研究。


以前这些数据都是不公开的,独享的,因此这样的流行病学研究也就成了少数大型单位的「特权」。


但有了这个数据共享平台后,局面将会改变。任何单位或个人如果有好的研究切入点,都能利用这些数据进行疾病的探索和发现,更充分和有效地挖掘数据。




数据库的未来改进方向


但目前该数据尚在起步阶段,存在诸多不足。


比如汶川地震的数据集,收集的变量十分有限,大约不足百来个。各种检查治疗,医嘱信息都是缺失的,这对开展危重症方面的研究是一个致命的缺陷。


从这点上看,该数据集和真正的大数据还是有一定差距的。


笔者推测,这些数据应该是手工采集而来,而非通过与医院电子病历整合自动采集而来,而后者应该是未来努力的一个方向。另外里面的一些临床数据集并不是多中心的,而仅仅局限于北京几个大医院,这并不能代表整个中国人口数据特征。


万事开头难,在数据共享方面,此次国家迈出了历史性的一步。对于广大民间屌丝而言,这无疑是一个利好消息。从此大样本的临床科研不再是北上广大医院的专属特权,数据的获取已不再是一个壁垒。


中国的临床研究将进入春秋战国时代,百家争鸣,百花齐放,群雄逐鹿,而竞争的核心就在于谁掌握了大数据分析能力。


不管怎么说,国家这次出了一个大招,中国的临床研究会不会进入一个井喷时代?该如何有效利用这个数据库?



丁香公开课

笔者与丁香园开设《临床大数据的获取、分析与处理》实操课,教你如何获取和分析医疗大数据进行临床研究,发表 SCI 论文。



长按识别二维码直达课程页面


课程全部使用 R 语言进行讲解,每种数据处理方法均采用数据模拟创造临床研究情境,然后针对该问题进行数据挖掘实战演示。 


本课程可以帮助你系统学习数据分析并加以实践。



作者:章仲恒,浙江大学医学院附属邵逸夫医院急诊科。加拿大呼吸杂志(CRJ)客座编辑,Lancet respiratory medicine (IF=15),Intensive care medicine(IF=10)等杂志审稿人,第一作者发表 SCI 论文 40 篇。

图片来源:国家人口与健康科学数据共享平台