专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【学习】文本型医疗大数据，拿来就可用？

机器学习研究会 · 公众号 · AI · 2017-01-24 19:51

正文

点击上方 “机器学习研究会” 可以订阅哦

摘要

转自：视觉机器人

我们的很多研究工作都是基于大数据的，现在所做的健康医疗领域研究也要基于大规模医疗文本数据的处理。但是否有了大量的确定领域文本数据，就可以直接拿来进行挖掘，建模，并利用数据来创造价值了呢？如果发现问题没那么简单，我们要做些什么工作才能让这些大数据真正创造价值呢？为了尝试搞清楚这些问题，我们先来看看人们对文本型医疗大数据理解上的一些常见误区。

大数据与可计算大数据

我们现在触手可及的文本型健康医疗数据很多，能够获取的数据规模也都很大，但这是否就意味着这些数据可以供研究机构或商业机构做大数据分析，让数据产生更大价值了呢？在使用这些数据之前，让我们先区分一下 大数据 与 可计算大数据 的区别。很多大数据科学家口中所说的大数据，往往指的是可计算的大数据。举个例子，某科室门诊病历数量巨大，我们希望从患者主诉和医生诊断及最终的治疗效果中建模出更有效的治疗方案。然而，当我们看到真实数据后会发现，大部分数据是整段的文本描述，计算机根本无从下手进行预测分析，甚至连一些基本的统计工作都无法进行，那么这样的数据就是不可计算的。如果我们可以把文本数据转换为数据库表、关系图，甚至数值型向量，计算机就可以读懂数据，进行我们想要的分析。例如根据某项疾病统计患者的年龄分布，根据每一项症状和检查指标，推荐可能有效的药品等。要把自然语言的描述转换为计算机可以计算的数据，需要依赖自然语言处理中的很多基础技术，比如句子的分词， 实体识别 ， 实体的归一化和链接