专栏名称: CDA数据分析师

CDA数据分析师品牌官方微信，开放、创新、分享。

【干货】真实世界临床研究中数据预处理实践

CDA数据分析师 · 公众号 · 大数据 · 2024-10-10 10:04

正文

持证人简介

周楠，CDA 数据分析师一级持证人，马来西亚拉曼大学康泰雅医学院博士，原某头部制药企业区域医学高级主管，陕西省中西医结合学会周围血管专业委员会青年委员。

一

真实世界临床研究VS 随机对照研究

首先科普一下啥叫“真实世界临床研究”，真实世界临床研究算是近年来在临床研究领域比较时髦的一个概念。这个概念的提出是基于对传统临床实验一些局限性的认识。我们这里讲的一般是RCT，也就是随机对照研究。通常在严格控制的环境中进行，虽然RCT能够提供非常高质量的证据，但是RCT的结果在实际的医疗环境中的外部可推性非常有限。也就是说，我们能证明在这个环境中有效，但超出了这个框架的有效性，还是需要斟酌的。

如果我们想要对一个疾病进行一个比较全面的研究，通常需要针对同一疾病下不同的预设条件开展多项RCT，以证实某种方案对特定疾病成体系的治疗作用。但是RCT本身成本高昂，而且外部可推性的限制会呈指数级增加。在临床研究中，RCT的成本是一个问题。

真实世界研究则是在实际医疗环境中进行的研究，其目的在于提供更加具有外部可推性的有效性的证据。与传统的RCT临床研究不同，真实世界研究的主要数据来源于日常医疗实践中的数据。真实世界研究和以RCT为代表的传统临床研究的主要区别并不是在于研究设计上，主要的区别来源于数据获取过程。真实世界研究不是一种既定的临床研究的设计形式，它是以最贴合真实医疗环境的方式进行研究。

二

真实世界研究数据从哪来？

咱们回到数据分析层面，从数据获取的方式来说，真实世界研究的数据一般从哪来？来自于大型的诊疗数据库、卫生信息系统等。

这些数据库中的数据有什么共同点？就是它记载的信息都是已经发生过的，病例、个案是过去时的。这些个案的诊疗信息在收集过程中，并没有受到有特殊目的的干预，就是来一个患者，正常给他按照这个疾病的诊断和诊疗流程进行，没有受到特殊的干预。基于这些数据库所开展的真实世界临床研究，那肯定是非干预性的。

三

数据预处理的意义

数据预处理GIGO原则，就是“garbage in, garbage out”，意思是如果你用于分析的数据是垃圾的话，那么你出来的结果也一定是垃圾。

这里强调的是数据处理的重要性，尤其是现在这个时代，AI技术所支持的知识库的发展，作为一个数据分析师，你会的算法、模型、代码这些东西，对于相关领域的人来说，基本没有什么门槛。对于数据分析师来说，同行之间在绝对基础上的差异会越来越小，那么这种差距开始存在于什么地方？就回到我们刚才说的GIGO原则，数据预处理过程就成了体现差异的关键。因为在预处理这一块，人对于业务的理解是不可或缺的关键逻辑。

AI可能会帮助你去理解，比如说医疗领域、金融领域的一些问题，但是在面临各个具有个性化特点的数据集的时候，只有人的判断才是最权威的。换句话说，只有你最了解你所用的数据集。

比如在临床治疗数据中，经常会有一个变量——体重。可能AI觉得200公斤的体重非常离谱，不应该存在这个离群值，打算要删掉，但是你作为这个项目的直接负责人，你知道你的研究样本中就有这么一个患者，他是200公斤。所以说，人的判断在数据处理预处理的过程中非常重要，数据预处理的方法和质量将成为拉开普通数据分析师之间水平差距的重要因素，做好数据处理绝对是控制数据分析质量的一个关键。

这就要说到CDA数据分析师一级考试，我觉得CDA数据分析师一级最好的设计就是考察业务分析，整理了比较经典的业务分析模型，帮助很快去了解各行各业的业务形态，我现在去看电商、金融的业务，都能很快地了解业务逻辑，如果大家也想提升自己的业务能力、数据分析能力的话，可以关注CDA认证小程序报名。

四

真实世界研究数据特点

1、RWR与传统临床研究的数据特点对比

真实世界研究具备了很多数据特点，包括数据来源多样、多种模态、多种数据格式、庞大的数据量等，对于数据分析来说都是很具有挑战性的特征。预处理数据处理既是机会也是挑战，说它是机会就在于我们可以通过预处理，把看似无用的数据变废为宝，让数据集的内部潜在的规律能够浮出水面，然后被人们所发现。

做数据分析的人可能都能体会到，你从一堆看似无用的数据里面发现了某种数据规律的时候，那种时刻是相当激动的。说它是挑战，因为真实世界研究数据处理的复杂度是相当高的，因为它在数据收集的阶段卡得不严，所以在数据集中可能包含了现实医疗环境中所可能出现的各种意外情况以及一些不利于数据分析的情况，所以真实世界研究的数据处理一定要同时具有数据分析人员和医学研究人员的共同参与、共同判断、共同评估，一定要充分结合临床知识和数据逻辑。

2、真实世界研究数据特点

真实世界研究相对于传统的临床研究来说，在数据处理上有一些不一样的特点，这三点既是真实世界研究数据处理的特点，也是它的要求：

（1）

通用性

针对一套数据集，应当有统一的和持续性的预处理原则，同时这个原则能够通用于该数据集中的所有变量。因为在数据集规模小的时候，对于变量的处理可能是逐个处理，就是我从第一个变量开始，一个一个看到最后一个变量，因为一共就那么多，我看看就完了。逐个分析这些变量，然后给它匹配上各种各样合适的预处理方案。

但是真实世界研究的数据集可能包含了几百上千个变量，一个一个分析根本不现实，所以需要指定通用标准来操作这些变量。比如说我们针对数据中所有的连续变量，制定一个分析计划，所有连续变量缺失值小于20%的使用均值填充，缺失值大于20%、小于40%的使用随机森林模型填充。缺失值大于40%的直接删除该变量。计划好之后，分析师就会按照这样的计划直接对整个数据集进行处理，就不需要逐个去分析，逐个去讨论这个处理方法了。

（2）

鲁棒性

这是个不太常见的名词，但医学研究领域使用的比较多。鲁棒性意思是强健的、健康的。简单来说就是一个系统在面对各种复杂情况时候的稳定性。数据预处理原则应当充分考虑到真实世界数据的异质性，能够应对不同的预处理需求和场景，并且预处理结果总是能够达到期望标准。这个系统不仅仅指我们平时用的电脑或者手机系统，也可能指各种任何相互关联或者相互作用的部分组成的整体，鲁棒性就是来看这个系统抗不抗造。比如说我们前面提到的为连续变量制定的数据处理计划的时候，我们要思考它是否真的适用于数据集中的所有连续变量，能够运行起来，不报错。

那要想让它运行起来不报错的话，我们就需要考虑到真实世界可能会发生的各种临床问题都会出现在我们的数据集中。不管你的数据是来源于爬虫，来源于医院内部的信息管理系统，还是CRC录入的数据。真实世界研究在录入阶段的一致性肯定是不如RCT的。就比如说我们用爬虫爬到一个变量，这个变量在我们第52个患者的时候，没有爬到对应的数据，就是这个患者可能他没查这个项目，或者说他可能查了，但是没往上填。那我们怎么办？我们就让一般情况下就让它空着就行了。

大部分做数据分析的工具都会自动识别空值，那如果是来源于医院的信息管理系统或者CRC录入，我们就要告诉负责相关的人员在写病历的过程中，需要注意标准的格式、基本相同的病案书写逻辑，这样有利于我们后期用自然语言识别和提取的方法，从中提取出来相对半结构化的数据。我们应该给数据录入人员制定这个规则，然后这个数据集中的空值是直接空着或者是斜杠，还是说写个NA还是写个NaN。总之，这些都是需要在预处理中考虑到的，应该去给它有相对的应对措施的。

那如果说已经收集上来的数据，这时候要考虑什么问题？我们要考虑格式问题，会不会存在某个连续变量的存储格式是字符串格式来存储的，或者说浮点数和整数的格式是不是需要统一，或者是用模型填充缺失值的时候，是要先用模型填充缺失值，然后再去过采样，还是说先用先做过采样，再去填充缺失值，先做标准化什么的，或者说还要注意一个变量的单位是不是要考虑量纲一致原则。量纲一致是在初学者或者说对于业务逻辑不太了解的分析师可能会犯的错误。这些都是需要严密结合业务逻辑和数据科学来仔细考量的问题。所以说数据分析师不能说只考虑数据或者数据分析的业务，一定要了解你所在领域的业务逻辑，落实到医学研究这个业务的逻辑就是临床问题、临床知识、临床经验。

（3）

自动化

当我们制定的数据处理方案满足通用性和鲁棒性之后，接下来该怎么办？接下来，如果我们还是用人工一个变量去按照上面的规则去处理的话，那我们所讨论的通用性和鲁棒性没有任何意义，我们在做一些无用功而已，所以要实现自动化。

真实研究的数据集是具备大数据特点的，就是海量、及时、多模态。它会一直实时产生变得更多，比如说那个医院信息管理系统每天都会有新的患者加入进来，然后穿戴设备传输回来的健康数据每天都会更新，那就算数据不更新，针对如此大量的数据集的预处理及预处理过程中的调试工作都不可能像是传统数据集那样使用，在海量和即时这两个特点的加持下，自动化是真实世界研究数据处理的最优选择。实现自动化才能同时兼顾效果和准确性，将满足了通用性和鲁棒性的预处理工作流设置好之后，不管这个研究样本的样本量或者变量再怎么增加，只要输入到这个流程中就可以了。如果面对大数据特征，使用于传统的one by one的方法，投入的人力成本和时间成本绝对是不可估量的。你作为一个项目经理来说的话，你不对人力和时间做去做管理，那肯定是一个不合格的项目经理。

CDA 10月校园助考补贴活动火热进行中，这是只有在校生才能薅的羊毛，赶紧冲冲冲！

往期干货文章：

【干货】快消企业的数据分析实践：数据应用4大痛点

【干货】7类常见的统计分析错误

【大咖分享】数据科学与大数据技术专业就业前景怎样？政策方向？

【干货】数据分析在阿里巴巴供应链管理中的实际应用

面试没有项目经历？这6个项目可以写进简历！

【干货】标签体系如何搭建？如何通过标签分析用户行为？

【干货】8个AI+数据分析工具，建议收藏

【干货】数据分析实战：瑞幸爆款制造的底层逻辑分析

【干货】数据分析如何支撑瑞幸联名成功？（2）

【干货】数字化时代，怎么做零售数据分析？

【2400字实战干货】数据分析在汽配互联网平台金融风控中的应用