如何高效准确地完成临床研究？试试这项神技能

丁香园肿瘤时间 · 公众号 · 医学 · 2017-06-30 20:00

正文

请到「今天看啥」查看全文

英文书《电子病历二次分析》（secondary analysis of electronic health records）经过一个月的漂洋过海，终于如期来到了我的书桌上。

比起电子版，纸质的书籍更具有一种人文气息，让你觉得一种真实的存在感，这也就是为什么，对于一些好书，看了电子版之后往往还需要珍藏一本纸质的版本：一来是为了装点门面，二来也是为了享受一种被实体知识包围的乐趣。我快速阅读了一下前言，应该是第二次阅读了，我忽然产生了一个疑问，那就是如何来定义一门新兴的学科。

我们现有的学科分类并不是一开始就有的，而是随着人类认知的慢慢分化而来的。在人类的洪荒时代，科学与哲学这两个如今看来相去甚远的学科其实是不分家的，那时候人们把不食人间烟火的思考都称之为哲学，思考宇宙星空与思考人是从哪里来的都是一类东西，这也就是为什么现在理学博士又叫哲学博士（phD）的缘由。

随着一个个学科体系的完善，一门门学科就逐渐产生，并有专门的一批人从事相关研究，而学科完善的一个重要的标志就是专著的出现。

在医学史上有一大批优秀的著作，奠定了各自的学科地位，这些耳熟能详的名字就包括：《格氏解剖学》、《米勒麻醉学》、《西氏内科学》、《哈里森内科学》等等。

那么现在出版的这本《电子病历二次分析》无疑也代表着一个学科的兴起与发展，是 IT 大数据与传统临床研究方法相结合的产物，代表新时代下一种新型的临床研究模式。接下来谈谈我对 大数据临床研究 的一些粗浅认识。

> > > >

这与传统临床研究的整合

大数据临床研究本质上就是数据量大一些的回顾性研究，因此也拥有传统临床研究所有的属性。比如，一些常用的检验方法，t 检验、卡方检验、回归分析等都适用于与大数据研究。但由于数据量太大，统计学效能太强，一点微小的差异也能被检验出来，因此很多 p<0.05 的东西，其实并没有什么临床意义，比如死亡组与存活组只差了 0.0001。

基于电子病历大数据的研究也存在回顾性研究偏倚的缺点，许多平时临床中不测的指标就可能是一个巨大的混杂，而我们却永远也无法发现。

另外传统的研究讲究的是抽样，以抽样来推断总体。其实这是因为资源限制退而求其次的方法，最准确的还是基于全体样本的研究，这样就免去了推断的环节。我们知道有推断就会有不确定性（用置信区间来描述），而大数据的全样本的调查某种程度上说是消除了这种不确定性。比如研究者想了解某医院住院患者的病死率变化情况，有了电子病历，我们可以直接调用全部的患者来观察，而不再是基于样本的推断。当然，这个总体只是相对而言的，在时间和空间两个维度上，我们永远也无法做到真正的总体研究。

> > > >

真实世界研究

我们说 RCT 有可能是真实世界研究，但更多的情况下会偏离平时的常规做法，毕竟花大价钱去做 RCT 各个利益团体都希望得到一个振奋人心的结果。但基于电子病历大数据的研究必定是真实世界的研究。

有人说，这样的研究不值得一提，许多实验室指标根本不准嘛、或者平时的记录都是瞎编的！但我会反问一句：那平时我们看病不就是以这些不准的指标作为依据的吗？如果存在某种恰到好处的「不准确」能够让我们提高患者的预后，那这种「不准确」反而是值得提倡的了。换句话说，这种「不准确」就是我们临床工作的现状，病人就是在这样的「不准确」中求得生存，那么这实在是很有研究价值的东西，因为它跟患者的预后挂钩了。

临床研究的本质不是获得多少阳性的结果，而是如何提高患者的预后，任何与之相关的，都是研究的重点。

> > > >

人工智能

电子病历大数据不同于传统方法，表面上看它只是数据量更多了，但实际上这种量变会带来质的飞跃。

人工智能（AI）的应用就是这样一种质的飞跃。之前已经听到过很多有关人机大战的新闻，比如对皮肤癌的识别（Nature）、对糖尿病视网膜病变的判断（JAMA）等等，而每场战役机器都有着令人惊讶的不俗表现。这些都必须基于电子病历大数据，加上一些神经网络模型的算法。这些算法只有在大量数据的情况下才能显示出威力，但如果数据量不够，就像水沟里的蛟龙，并不能兴风作浪，反而不如传统的 t 检验了。

另外常常会听到一些争议，AI 在临床医学中的应用，临床医生应该扮演怎样的角色？是完全不管，把任务全权交给人工智能专家？其实我觉得临床医生在其中的作用举足轻重，因为人工智能算法是死的，成熟的，而临床问题确是鲜活的。一项研究其成功与否的衡量标准不在于算法的花哨，而在于是否有助于解决一个临床难题。而这个临床难题的核心就在于临床的一线医生，他们最清楚他们的病人需要什么。

> > > >

生物学信息

生物信息学是将计算机技术用于分析生物学指标的方法，里面有许多有趣的算法，比如其中的遗传算法，基于达尔文的进化论，我们可以进化出非常精准的预测模型。

刚开始，机器会随机选取一些指标来做疾病的预测，这时的预测几乎是随机的，就像一堆烂铁被龙卷风卷到天上，掉下来的不可能是一辆奔驰车。然而自然选择的力量是强大的，它能够用几种氨基酸进化出人类这样复杂的系统。那么同样，利用自然进化理论，我们也能够进化出一个能够精准预测疾病的模型，我想事物再复杂也复杂不过人体本身吧。

这是生物信息学的一个简单案例，然而生物信息学的算法需要基于足够多的临床变量，而这些变量之间的关系也是错综复杂，它们之间的关系单靠人脑是无法理清的。

电子病历大数据就提供了这样一种素材。

试想，我们一个大生化就有 80 几种指标，一个血气单也有几十种，而这些指标在时间维度上又是不断变化的，日此累加，一个患者住院下来，其产生的信息量足以构成一个复杂的生物信息学系统。临床医生平时对于许多指标其实是视而不见，大脑的思维容量决定了我们不可能对每个指标都加以分析处理，而这正是生物信息学要做的事情：去发现大数据下隐藏的疾病规律，哪怕是一些微乎其微的规律。

> > > >

课程报名

我和丁香园开设了《临床大数据获取、分析与处理实操课》，教你如何获取和分析医疗大数据进行临床研究，零基础学员也能发表 SCI 论文。

长按识别二维码，即可参与课程报名

《临床大数据获取、分析与处理》

课程全部使用 R 语言进行讲解，每种数据处理方法均采用数据模拟创造临床研究情境，然后针对该问题进行数据挖掘实战演示。

作者：章仲恒，浙江大学医学院附属邵逸夫医院急诊科。加拿大呼吸杂志（CRJ）客座编辑，Lancet respiratory medicine (IF=15)，Intensive care medicine（IF=10）等杂志审稿人，第一作者发表 SCI 论文 40 篇。