英文书《电子病历二次分析》(secondary analysis of electronic health records)经过一个月的漂洋过海,终于如期来到了我的书桌上。
比起电子版,纸质的书籍更具有一种人文气息,让你觉得一种真实的存在感,这也就是为什么,对于一些好书,看了电子版之后往往还需要珍藏一本纸质的版本:一来是为了装点门面,二来也是为了享受一种被实体知识包围的乐趣。我快速阅读了一下前言,应该是第二次阅读了,我忽然产生了一个疑问,那就是如何来定义一门新兴的学科。
我们现有的学科分类并不是一开始就有的,而是随着人类认知的慢慢分化而来的。在人类的洪荒时代,科学与哲学这两个如今看来相去甚远的学科其实是不分家的,那时候人们把不食人间烟火的思考都称之为哲学,思考宇宙星空与思考人是从哪里来的都是一类东西,这也就是为什么现在理学博士又叫哲学博士(phD)的缘由。
随着一个个学科体系的完善,一门门学科就逐渐产生,并有专门的一批人从事相关研究,而学科完善的一个重要的标志就是专著的出现。
在医学史上有一大批优秀的著作,奠定了各自的学科地位,这些耳熟能详的名字就包括:《格氏解剖学》、《米勒麻醉学》、《西氏内科学》、《哈里森内科学》等等。
那么现在出版的这本《电子病历二次分析》无疑也代表着一个学科的兴起与发展,是 IT 大数据与传统临床研究方法相结合的产物,代表新时代下一种新型的临床研究模式。接下来谈谈我对大数据临床研究的一些粗浅认识。
大数据临床研究本质上就是数据量大一些的回顾性研究,因此也拥有传统临床研究所有的属性。比如,一些常用的检验方法,t 检验、卡方检验、回归分析等都适用于与大数据研究。但由于数据量太大,统计学效能太强,一点微小的差异也能被检验出来,因此很多 p<0.05 的东西,其实并没有什么临床意义,比如死亡组与存活组只差了 0.0001。
基于电子病历大数据的研究也存在回顾性研究偏倚的缺点,许多平时临床中不测的指标就可能是一个巨大的混杂,而我们却永远也无法发现。
另外传统的研究讲究的是抽样,以抽样来推断总体。其实这是因为资源限制退而求其次的方法,最准确的还是基于全体样本的研究,这样就免去了推断的环节。我们知道有推断就会有不确定性(用置信区间来描述),而大数据的全样本的调查某种程度上说是消除了这种不确定性。比如研究者想了解某医院住院患者的病死率变化情况,有了电子病历,我们可以直接调用全部的患者来观察,而不再是基于样本的推断。当然,这个总体只是相对而言的,在时间和空间两个维度上,我们永远也无法做到真正的总体研究。
我们说 RCT 有可能是真实世界研究,但更多的情况下会偏离平时的常规做法,毕竟花大价钱去做 RCT 各个利益团体都希望得到一个振奋人心的结果。但基于电子病历大数据的研究必定是真实世界的研究。
有人说,这样的研究不值得一提,许多实验室指标根本不准嘛、或者平时的记录都是瞎编的!但我会反问一句:那平时我们看病不就是以这些不准的指标作为依据的吗?如果存在某种恰到好处的「不准确」能够让我们提高患者的预后,那这种「不准确」反而是值得提倡的了。换句话说,这种「不准确」就是我们临床工作的现状,病人就是在这样的「不准确」中求得生存,那么这实在是很有研究价值的东西,因为它跟患者的预后挂钩了。
临床研究的本质不是获得多少阳性的结果,而是如何提高患者的预后,任何与之相关的,都是研究的重点。
电子病历大数据不同于传统方法,表面上看它只是数据量更多了,但实际上这种量变会带来质的飞跃。
人工智能(AI)的应用就是这样一种质的飞跃。之前已经听到过很多有关人机大战的新闻,比如对皮肤癌的识别(Nature)、对糖尿病视网膜病变的判断(JAMA)等等,而每场战役机器都有着令人惊讶的不俗表现。这些都必须基于电子病历大数据,加上一些神经网络模型的算法。这些算法只有在大量数据的情况下才能显示出威力,但如果数据量不够,就像水沟里的蛟龙,并不能兴风作浪,反而不如传统的 t 检验了。
另外常常会听到一些争议,AI 在临床医学中的应用,临床医生应该扮演怎样的角色?是完全不管,把任务全权交给人工智能专家?其实我觉得临床医生在其中的作用举足轻重,因为人工智能算法是死的,成熟的,而临床问题确是鲜活的。一项研究其成功与否的衡量标准不在于算法的花哨,而在于是否有助于解决一个临床难题。而这个临床难题的核心就在于临床的一线医生,他们最清楚他们的病人需要什么。
生物信息学是将计算机技术用于分析生物学指标的方法,里面有许多有趣的算法,比如其中的遗传算法,基于达尔文的进化论,我们可以进化出非常精准的预测模型。
刚开始,机器会随机选取一些指标来做疾病的预测,这时的预测几乎是随机的,就像一堆烂铁被龙卷风卷到天上,掉下来的不可能是一辆奔驰车。然而自然选择的力量是强大的,它能够用几种氨基酸进化出人类这样复杂的系统。那么同样,利用自然进化理论,我们也能够进化出一个能够精准预测疾病的模型,我想事物再复杂也复杂不过人体本身吧。
这是生物信息学的一个简单案例,然而生物信息学的算法需要基于足够多的临床变量,而这些变量之间的关系也是错综复杂,它们之间的关系单靠人脑是无法理清的。
电子病历大数据就提供了这样一种素材。
试想,我们一个大生化就有 80 几种指标,一个血气单也有几十种,而这些指标在时间维度上又是不断变化的,日此累加,一个患者住院下来,其产生的信息量足以构成一个复杂的生物信息学系统。临床医生平时对于许多指标其实是视而不见,大脑的思维容量决定了我们不可能对每个指标都加以分析处理,而这正是生物信息学要做的事情:去发现大数据下隐藏的疾病规律,哪怕是一些微乎其微的规律。
我和丁香园开设了《临床大数据获取、分析与处理实操课》,教你如何获取和分析医疗大数据进行临床研究,零基础学员也能发表 SCI 论文。
长按识别二维码,即可参与课程报名
《临床大数据获取、分析与处理》
课程全部使用 R 语言进行讲解,每种数据处理方法均采用数据模拟创造临床研究情境,然后针对该问题进行数据挖掘实战演示。
作者:章仲恒,浙江大学医学院附属邵逸夫医院急诊科。加拿大呼吸杂志(CRJ)客座编辑,Lancet respiratory medicine (IF=15),Intensive care medicine(IF=10)等杂志审稿人,第一作者发表 SCI 论文 40 篇。