我们的很多研究工作都是基于大数据的,现在所做的健康医疗领域研究也要基于大规模医疗文本数据的处理。但是否有了大量的确定领域文本数据,就可以直接拿来进行挖掘,建模,并利用数据来创造价值了呢?如果发现问题没那么简单,我们要做些什么工作才能让这些大数据真正创造价值呢?为了尝试搞清楚这些问题,我们先来看看人们对文本型医疗大数据理解上的一些常见误区。
大数据与可计算大数据
我们现在触手可及的文本型健康医疗数据很多,能够获取的数据规模也都很大,但这是否就意味着这些数据可以供研究机构或商业机构做大数据分析,让数据产生更大价值了呢?在使用这些数据之前,让我们先区分一下大数据与可计算大数据的区别。很多大数据科学家口中所说的大数据,往往指的是可计算的大数据。举个例子,某科室门诊病历数量巨大,我们希望从患者主诉和医生诊断及最终的治疗效果中建模出更有效的治疗方案。然而,当我们看到真实数据后会发现,大部分数据是整段的文本描述,计算机根本无从下手进行预测分析,甚至连一些基本的统计工作都无法进行,那么这样的数据就是不可计算的。如果我们可以把文本数据转换为数据库表、关系图,甚至数值型向量,计算机就可以读懂数据,进行我们想要的分析。例如根据某项疾病统计患者的年龄分布,根据每一项症状和检查指标,推荐可能有效的药品等。要把自然语言的描述转换为计算机可以计算的数据,需要依赖自然语言处理中的很多基础技术,比如句子的分词,实体识别,实体的归一化和链接等。临床电子病历的后结构化就是基于这些技术手段将大量不可计算数据转换为可统计、可计算数据的一个实际应用场景。所以拿到一份数据,我们需要先看看是否可用于计算;如果不是,就要做些功课了。
原文链接:
https://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649440226&idx=1&sn=9c43f9933d5bc1c99cf513832359f98e&chksm=82c0d666b5b75f70550645ec6edf26d0d5a75b372aeaf001b2bd1aca109f6b0ff3b763586403&mpshare=1&scene=1&srcid=0124JwkAcmeSPi2QwaP4doLj&pass_ticket=zfjjpdKoCilnATrKm1GYuLVUhu4unIXn9TPPHVtST4o%3D#rd