专栏名称: 医械圈的哪点事

欢迎关注“医械资讯社区"，我们致力分享有价值、有观点的全球法规（如：FDA/CE/CFDA等）文章、医疗行业资讯，提供最前沿动态信息，撑握最新资讯，旨在专注、交流、学习、进步！

【临床】关于meta分析步骤详解，以及常见问题分析……

医械圈的哪点事 · 公众号 · 医学 · 2017-04-25 07:31

正文

关注“医械资讯社区”，撑握医疗领域相关的全球法规（如：FDA/CE/CFDA等）动态信息和行业最新资讯、前沿科技等，喜欢我们的文章，记得转发扩散哦~

meta分析的完整步骤，根据个人的体会，结合各位友人的经验总结而成，meta的精髓就是对文献的二次加工和定量合成，所以这个总结也算是对大家经验的meat分析吧

定义

什么是Meta分析：国内翻译为“荟萃分析”，定义是“The statistical analysis of large collection of analysis results from individual studies for the purpose of integrating the findings.”中文翻译：对具备特定条件的、同课题的诸多研究结果进行综合的一类统计方法。

Meta分析的前身源于Fisher 1920年“合并P值”的思想，1955年由Beecher首次提出初步的概念，1976年心理学家Glass进一步按照其思想发展为“合并统计量”，称之为Meta分析；1979年英国临床流行病学家Archie Cochrane提出系统评价（Systematic Review，SR）的概念，并发表了《激素治疗早产孕妇降低新生儿死亡率随机对照试验的系统评价》。

原文：

选题和立题

(一)形成需要解决的临床问题：

系统评价可以解决下列临床问题:

1.病因学和危险因素研究;

2.治疗手段的有效性研究;

3.诊断方法评价;

4.预后估计;

5.病人费用和效益分析等。

进行系统评价的最初阶段就应对要解决的问题进行精确描述,包括人群类型(疾病确切分型、分期) 、治疗手段或暴露因素的种类、预期结果等,合理选择进行评价的指标。

(二)指标的选择直接影响文献检索的准确性和敏感性，关系到制定检索策略。

(三)制定纳入排除标准。

文献检索

(一)检索策略的制定

这是关键，要求查全和查准。推荐Mesh联合free word检索。

(二)文献检索，获取摘要和全文

国内的有维普全文VIP，CNKI，万方数据库，外文的有medline ,SD，OVID等。

(三)文献管理

强烈推荐使用endnote，procite，noteexpress等文献管理软件进行检索和管理文献。

查找文献全文的途径：

在这里，讲一下找文献的过程，以请后来的朋们参考(不包括网上有电子全文的)：

1.查找免费全文：

(1)在pubmed center中看有无免费全文。有的时候虽然没有显示free full text，但是点击进去看全文链接也有提供免费全文的。我就碰到几次。

(2)在google中搜一下。

少数情况下，NCBI没有提供全文的，google有可能会找到，使用“学术搜索”。本人虽然没能在google中找到一篇所需的文献，但发现了一篇非常重要的综述，里面包含了所有我需要的文献(当然不是数据)，但起码提供了一个信息，所需要的文献也就这么多了，因为老外的综述也只包含了这么多的内容。这样，到底找多少文献，找什么文献，心里就更有底了。

(3)免费医学全文杂志网站。Www.freemedicaljournals.com。提供很过超过收费期的免费全文。

2.图书馆查馆藏目录：

包括到本校的，当然方便，使用pubmed的linkout看文献收录的数据库，就知道本校的是否有全文。其它国内高校象复旦、北大、清华等医学院的全文数据库都很全，基本上都有权限。上海的就有华东地区联目、查国内各医学院校的图书馆联目。这里给出几个：

(1)中国高等院校医药图书馆协会的地址：http://server14.library.imicams.ac.cn/xiehui/chengyuan.htm，进入左侧的“现刊联目”，可以看到有“现刊联目查询”和“过刊联目查询”，当然，查询结果不可全信，里面有许多错误。本人最难找的两篇文章全部给出了错误的信息(后来电话联系证实的)。

(2)再给出两个比较好的图书馆索要文献的email地址(有偿服务)，但可以先提供文献，后汇钱，当然做为我们，一定要讲信誉吆。一是解放军医学图书馆信息部：[email protected]，电话：01066932429;

(3)二是复旦大学医科图书馆(原上医)：[email protected]，联系人，周月琴，王蔚之，郑荣，电话，021-54237822，需下载文献传递申请表(http://202.120.76.225/ill.doc)。其他的图书馆要么要求先交开户费，比如协和(500元)，要么嫌麻烦，虽然网上讲过可提供有偿服务，在这里我就不一一列出了。

3.实在不行，给作者发email。这里给出一个查作者email的方法，先在NCBI中查出原文献作者的所有文章，注意不要只限于第一作者，display，abstract, 并尽可能显示多的篇数，100，200，500。然后在网页内查找“@”，一般在@前的字母会与人名有些地方相似。再根据地址来确定是否是同一作者。

4.查找杂志的网址，给主编发信求取全文。这里我就不讲查找的方法了。

5.向国外大学里的朋友求助。国外大学的图书馆一般会通过馆际互借来查找非馆藏文献，且获得率非常高。我的三篇文献是通过这一途径得到的。

对文献的质量评价和数据收集

(一)研究的质量评价

对某一试验研究的质量评价主要是评价试验结果是否有效,结果是什么该结果是否适用于当地人群。下面一系列问题可以帮助研究者进行系统的质量评价:

①该研究的试验设计是否明确,包括研究人群、治疗手段和结果判定方法;

②试验对象是否随机分组;

③病人的随访率是否理想及每组病人是否经过统计分析;

④受试对象、研究人员及其它研究参与者是否在研究过程中实行“盲法”;

⑤各组病人的年龄、性别、职业等是否相似;

⑥除进行研究的治疗手段不同外,其它的治疗是否一致;

⑦治疗作用大小;

⑧治疗效果的评价是否准确;

⑨试验结果是否适用于当地的人群,种族差异是否影响试验结果;

⑩是否描述了所有重要的治疗结果;

治疗取得的效益是否超过了治疗的危险性和费用。系统评价者应根据上述标准进行判断,不满足标准的文献应剔除或区别对待(数据合并方法不同) ,以保证系统评价的有效性。

(二)、数据收集

研究者应设计一个适合本研究的数据收集表格。许多电子表格制作软件如Excel 、Access ,和数据库系统软件如FoxPro 等,可以用于表格的制作。表格中应包括分组情况、每组样本数和研究效应的测量指标。根据研究目的不同，测量指标可以是率差、比数(odds) 、相对危险度( relative risk ,包括RR 和OR) 。各研究间作用测量指标不一致,需转化为统一指标。常用的统一指标是作用大小( Effect Size , ES) ,ES 是两比较组间作用差值除以对照组或合并组的标准差。ES 无单位是其优点。

(三)、数据分析

系统评价过程中,对上述数据进行定量统计合并的流行病学方法称为Meta分析(Meta analysis) 。Meta 意思是more comprehensive ,即更加全面综合。

通过 Meta分析可以达到以下目的:

1.提高统计检验效能; 2.评价结果一致性,解决单个研究间的矛盾;3.改进对作用效应的估计; 4.解决以往单个研究未明确的新问题。

统计分析的指标

(一)、异质性检验

1.检验原理：

meta 分析的原理首先是假定各个不同研究都是来自非同一个总体(H0:各个不同样本来自不同总体，存在异质性,备择假设H1，如果p>0.1，拒绝H0, 接受H1,，即来自同一总体)这样就要求不同研究间的统计量应该接近总体参数真实值,所以各个不同文献研究结果是比较接近,就是要符合同质性,这时候将所有文献的效应值合并可以采用固定效应模型的有些算法,如倒方差法,mantel haenszel 法,peto法等.

2.分类：

异质性检验，包括三个方面：临床异质性，统计学异质性和方法学异质性，作meta分析首先应当保证临床同质性，比如研究的设计类型、实验目的、干预措施等相同，否则就要进入亚组分析，或者取消合并，在满足临床同质性的前提下(非常重要，不能一味追求统计学同质性，首先考虑专业和临床同质性)，我们进一步观测统计学同质性。

临床异质性较大时不能行meta分析,随机效应模型也不行.只能行描述性

系统综述(systemic reviews,SR)或分成亚组消除临床异质性.解决临床异质后再考虑统计学异质性的问题.

如果各个文献研究间结果不存在异质性(p>0.1)，选用固定效应模型(fixed model)，这时其实选用随即效应模型的结果与固定效应模型相同;如果不符合同质性要求,即异质性检验有显著性意义(p<0.1),这时候固定效应模型的算法来合并效应值就是有偏倚,合并效应值会偏离真实值.所以,异质性存在时候要求采用随机模型,主要是矫正合并效应值的算法,使得结果更加接近无偏估计,即结果更为准确.

此外,这里要说明的是,采用的模型不同,和合并效应值的方法不同，都会导致异质性检验P值存在变动,这个可以从算法原理上证明,不过P值变动不会很大,一般在小数点后第三位的改变.

异质性检验的Q 值在固定模型中采用倒方差法和Mantel-haenszel法中也会不同。

随机效应模型是不需要假定各个研究来自同一个总体为前提，本来就是对总体参数的近似无偏估计，这个与固定模型不一样(必须要同质为基础)，所以随机模型来作异质性检验简直是“画蛇添足”，无奈之举!

因此，随机模型异质性检验是否有统计学意义都是可以用，而固定模型必须要求无异质性。可以证明和实践，如果无异质性存在的时候，随机模型退化为固定，即固定模型的结果于随机模型的合并效应值是相等的

目前,国内外对meta分析存在异质性,尤其是异质性检验P值很小的时候,学术界有着不同的争论,很多人认为这个时候做meta分析是没有意义,相当于合并了一些来自不同总体的统计结果,也有人认为,这些异质性的存在可能是由于文献发表的时间,研究的分组,研究对象的特征等因素引起,只要采用亚组分析或meta回归分析可以将异质性进行控制或解释,还是可以进行meta分析,至少运用随机效应模型可以相对无偏的估计总体.这里要强调的是,异质性检验P值较小时候,最好能对异质性来源进行分析和说明。合理进行解释，同时进行亚组分析，相当于分层分析，消除混杂因素造成的偏倚(bias)。

3. 衡量异质性的指标

一个有用的定量衡量异质性的指标是I2，I2 = [(Q – df)/Q] x 100%，此处的Q是卡方检验的统计值，df 是其自由度(Higgins 2003, Higgins 2002)。这个I2值代表了由于异质性而不是抽样误差(机会)导致的效应占总效应估计值的百分率。 I2值大于50%时，可以认为有明显的异质性。

(二)、敏感性分析：

1.敏感性分析的含义：

改变纳入标准(特别是尚有争议的研究)、排除低质量的研究、采用不同统计方法/模型分析同一资料等，观察合并指标(如OR,RR)的变化，如果排除某篇文献对合并RR有明显影响，即认为该文献对合并RR敏感，反之则不敏感，如果文献之间来自同一总体，即不存在异质性，那么文献的敏感性就低，因而敏感性是衡量文献质量(纳入和排除文献的证据)和异质性的重要指标。

敏感性分析主要针对研究特征或类型如方法学质量，通过排除某些低质量的研究、或非盲法研究探讨对总效应的影响。(王吉耀第二版P76中)

“排除某些低质量的研究，再评价，然后前后对比，探讨剔除的试验与该类研究特征或类型对总效应的影响”。(王家良第一版八年制P66、154)

敏感性分析是从文献的质量上来归类，亚组分析主要从文献里分组病例特征分类。

敏感性分析是排除低质量研究后的meta分析，或者纳入排除研究后的meta分析。

亚组分析是根据纳入研究的病人特点适当的进行分层，过多的分层和过少的分层都是不好的。

例如在排除某个低质量研究后，重新估计合并效应量，并与未排除前的Meta分析结果进行比较，探讨该研究对合并效应量影响程度及结果稳健性。若排除后结果未发生大的变化，说明敏感性低，结果较为稳健可信;相反，若排除后得到差别较大甚至截然相反结论，说明敏感性较高，结果的稳健性较低，在解释结果和下结论的时候应非常慎重，提示存在与干预措施效果相关的、重要的、潜在的偏倚因素，需进一步明确争议的来源。

2.衡量方法和措施

其实常用的就是选择不同的统计模型或进行亚组分析，并探讨可能的偏倚来源，慎重下结论。

亚组分析通常是指针对研究对象的某一特征如性别、年龄或疾病的亚型等进行的分析，以探讨这些因素对总效应的影响及影响程度。

而敏感性分析主要针对研究特征或类型如方法学质量，通过排除某些低质量的研究、或非盲法的研究以探讨对总效应的影响。

建议可以看参考王吉耀主编，科学出版社出版的《循证医学与临床实践》。

敏感性分析只有纳入可能低质量文献时才作，请先保证纳入文献的质量!纳入文献的质量评价方法，如果是RCT，可选用JADAD评分。如果病因学研究，我认为使用敏感性分析是评价文献质量(前提是符合纳入标准)的较为可行的方法。

敏感性分析是分析异质性的一种间接方法。

有些系统评价在进行异质性检验时发现没有异质性，这时还需不需要作敏感性分析?

我的看法是需要，因为我觉得异质性也是可以互相抵消的，有时候作出来没有异质性，但经过敏感性分析之后，结果就会有变化。

(三)对入选文献进行偏倚估计

发表偏倚(publication bias)评估(包括作漏斗图，和对漏斗图的对称性作检验)。可以用stata软件进行egger检验。

人是活的，软件是死的，临床是相对的，统计学是绝对的。

我们应当区分三个概念：

一是：文献/试验质量，现在Cochrane协作网称之为“纳入研究偏倚风险”

二是：文献报告质量，这实际上是一个写作表达水平的问题

三是：文献所报道试验的试验质量，如试验设计等等

而系统综述/系统评价尤其是Cochrane系统评价一直强调的是第一类的概念，即为纳入研究偏倚风险的评估，具体内容可在线阅读其官方网之系统评价作者手册5或安装RevMan 5版本后内包含的手册5内相关内容，我再怎么说也没有他们的权威或准确。

95%CI的宽窄实质上反映了试验的精度高低，换言之，上下限的间隔较小、则其精度高，也即是意味着数值资料可靠性比较高，其结果可信度较高，反之则提示可能由于原始数据“丢失”，或样本数量较少所致。但可行区间较宽的试验未必不能纳入分析!

其实，在制作一片合格或高质量的系统评价包括定性与定量的过程中，在我以前的实践过程中，也走了不少弯路，甚至不少结果也是粗制滥造，制造垃圾。现在我最大的体会就是，除了必须具备系统评价相关方法学的能力以外，关于专业背景与对临床试验设计、实施、结果的统计学分析等相关知识也是同等重要。

系统评价的基础一直基于这样一个假设，就是关于某干预措施的RCT其试验设计、受试标准的设置与把握、试验实施、统计学分析等环节没有错误发生，即单个试验其试验质量与结果统计学分析都是恰当合理的，而纳入系统评价中÷，重点评价其避免试验偏倚的努力程度或者偏倚风险的大小而已。

总结

(一)结果的解释

Meta- 分析结果除要考虑是否有统计学意义外，还应结合专业知识判断结果有无临床意义。若结果仅有统计学意义，但合并效应量小于最小的有临床意义的差值时，结果不可取;若合并效应量有临床意义，但无统计学意义时，不能定论，需进一步收集资料。不能推荐没有Meta-分析证据支持的建议。在无肯定性结论时，应注意区别两种情况，是证据不充分而不能定论，还是有证据表明确实无效。

(二)结果的推论

Meta-分析的结果的外部真实性如何?在推广应用时，应结合该Meta-分析的文献纳入/排除标准，考虑其样本的代表性如何，特别应注意研究对象特征及生物学或文化变异、研究场所、干预措施及研究对象的依从性、有无辅助治疗等方面是否与自己的具体条件一致。理想的Meta-分析应纳入当前所有相关的、高质量的同质研究，无发表性偏倚，并采用合适的模型和正确统计方法。

(三)系统评价的完善与应用

系统评价完成后,还需要在实际工作中不断完善,包括: ①接受临床实践的检验和临床医师的评价; ②接受成本效益评价; ③关注新出现的临床研究,要及时对系统评价进行重新评价。临床医师只有掌握了系统评价的方法,才能为本专业的各种临床问题提供证据,循证医学才能够顺利发展。

荟萃分析一些疑问：

1 GRADE系统到底应该如何正确使用

简而言之，GRADE评价证据的质量，以结局指标为单位，适用于系统评价制作者解读最后证据，卫生技术评估人员和指南制定者;cochrane偏倚风险工具评价单个研究的偏倚风险，主要用于系统评价的文献质量。两个的用途和角度都不一样。还是举例说明吧。A药治疗B 疾病产生了结局C。同时有5个RCT来评估这个疗效。对于每个RCT来说，都存在偏倚风险，因为其estimate of effect 与 true effect可能会有不同，因为RCT有可能没随机，随机方案没隐藏，没盲法或随访短，都会造成偏离真实疗效，这个时候，就需要cochrane偏倚风险工具对每个研究进行评估，理论上有6条，可以根据具体情况增减;而GRADE评价什么呢?针对结局C，如果5个RCT都报告的该结局，那么GRADE将会从5个方面评价总的证据质量：第一，偏倚风险，即跟cochrane评价方式一样;第二，是否直接证据(相对于间接证据而言)，请见我上面发的论文，主要针对指南制定者;第三，结果的一致性，比如这几个RCT就此结局的一致性，研究间的异质性，可用I2来判断;第四，结局的精确程度，可看CI;第五，发表性偏倚。如果不合格就降级，严重不合格就降2级，RCT始于高质量，但可能会被降为中等、低或极低质量。

疑问2：是否可以认为GRADE等级评定是对cochrane偏倚风险等级评定的再次评估?在完成一篇系统评价时，是否只用GRADE评分就可以完成质量评价?还是要写作cochrane偏倚风险评估，然后再看情况进行GRADE评分?如果它评价出来的等级都是极低，这种情况如何分析呢?

这是一个基础但非常重要的问题，首先需要明确回答的是，GRADE分级系统不是对cochrane偏倚风险等级评定的再次评估。它们之间的关系是先后顺序关系，即系统评价制作人员在纳入最终的研究之后，首先需要对其进行偏倚风险评估，即看看这些研究所得出的对疗效的估计值存在多大的偏倚，主要有6条标准。而GRADE分级是对整个系统评价结果的解读，即制作人员完成一篇系统评价之后，其最终的结果如果要拿来用或指导实践，则需要进行对证据质量和推荐强度进行分级，但其分级的基础或单位是结局，而非研究。在分级的过程中，有5个因素会降低RCT的质量，其中一个就是偏倚风险，从这个角度讲，GRADE会根据或借鉴cochrane对偏倚风险的结果，但GRADE会考虑总体的证据质量，因为决定证据质量高低的因素不仅仅是其偏倚风险，还有其精确性、一致性、是否直接或间接证据和发表性偏倚。还是举例：比如有个系统评价要评价奥司他韦治疗流感的有

效性和安全性，但纳入的研究都是奥司他韦治疗普通流感的RCT，其用cochrane偏倚风险评估发现，随机盲法分配隐藏随访都做的非常好，也就是说，基本上不存在偏倚，但是，如果系统评价的使用者，其治疗对象是 2009新甲流患者，那么，尽管该系统评价纳入的研究偏倚风险极小，但作为决策的证据，其质量可能会较低，原因是该证据不是直接证据，而是间接证据。因为没有奥司他韦直接治疗甲流的RCT。

GRADE是一种规范、系统和透明的方法，经过GRADE分级，如果被降为极低质量，仍然可以很好地指导决策者，因为好的证据不等于高质量的证据，就算证据质量极低，但如果是经过严格的方法得出的科学结论，仍然可以很好指导实践，更为重要的是，低或极低质量的证据，不一定就是弱推荐，即有可能会成为强推荐，因为证据质量只是决定推荐强度的一个因素而已。还是如上例所言，如果经过严格评价，发现奥司他韦治疗甲流的质量极低，但综合利弊后，WHO世界卫生组织还是将奥司他韦列为治疗甲流的强推荐，作为各国卫生医疗部门治疗甲流的首选。

疑问3：结局的精确程度，就是CI，在那个范围算是精确程度好的?

怎么样才算结局的不精确?CI多宽才算不精确?我倒是非常愿意跟你做下来慢慢讨论，因为这个问题可能需要一天?一周?甚至一个月来探讨。GRADE工作组在JCE上面的系列文章，即将发表的一篇，就是专门针对你这个问题的，他们的初稿有40多页，里面详细讨论了各种情况。可见你这个问题的重要程度。在这里我无法三言两语给你一个确定的答复，等我把他们这篇专门论述不精确问题的文章过几天上传后，你可以详细阅读，但到最后可能也无法得出确定的答复，因为 GRADE的目的不是给你最佳答案，而是当前最适，也即，可能会形成的共识。当然，他们也提供了较为简单的判断标准，你可以参阅GRADE 软件的说明书，我大概就系统评价员的二分类变量说明一下：

1. 一般而言，可信区间告诉了我们随机误差对证据质量的影响。如果可信区间比较宽，则降低1个等级，非常宽则降低2个等级。怎么样算非常宽，依据个人的判断和所纳入研究的具体情况。

2. 证据质量的不精确，对指南制定者和系统评价者的定义和含义均不相同，对于指南制定者，证据的精确性关键在于是否可以帮助作出一个明确的推荐，而对于系统评价员，只涉及对疗效评估的信心。这句话的意思是，如果你是一个系统评价员，则无需考虑成本、毒副作用以及获益的大小，这是指南制定者在评价精确性时需要考虑的。

3. 当试验纳入较少受试者和较少事件时，效应量可信区间较宽，结果精确度低。这个是肯定的，因为可信区间的计算，以RR为例，最主要跟SE(lnRR)有关，即其对数的标准误的大小有关，而SE(lnRR)的计算是基于每个组的事件发生数r和总人数n，r和n越大，则SE(lnRR)越小，可信区间越窄，随机误差越小，结果越精确。

4. 二分类变量指标可有两个原因降低证据质量级别：

a. 累积样本量小于理想信息量(optimal information size, OIS)，有推荐说系统评价纳入总数应该为4000，干预组对照组各2000，低于这个或事件发生总数低于300(拇指定则阈值)则降级;Ann Intern Med. 2007;146:878-881

b. 合并效应量或其它最佳估计效应量的95%可信区间或其它评估精确度的指标，包含了无效和明显获益或明显危害。即，宽到同时与无效线和门槛线 threshold相交。那啥是个门槛线?可以将RRR25%为一个门槛，即干预组某种不良事件的危险性与对照组相比较，降低了25%。

5. 等GRADE的精确性那篇文章发表了，我上传到此地，大家进一步讨论。

疑问4：生存曲线不能做Meta分析，但是我们肿瘤的文章需要评价的主要指标就是生存指标，请问有何解决的高见吗?似乎原来看过说可以转变成分类变量-变为每年病死率的比较或生存人数比较，或者转变为时间相关资料-O-E and Variance来做，如何处理?

1、生存分析预后相关的meta文章，有2种指标：1. 二分类 2. HR(O-E and Variance)，此种方法最理想，不过存在技术上的难度。

2、(1)假如你采取方法1，操作起来比较简单，但是涉及到一个脱落问题，一般以某某年死亡人数为指标(坏事件，标签位置不动)，不过存在统计学上的缺陷，需要分别计算短期及长期的死亡人数，例如，1,3,5年时间截点时的死亡人数;

(2)假如你采取方法2，方法学上有优势，不过数据的提取问题比较复杂，假如文章里面有HR，最好(一般有多因素HR和单因素HR之分，一般多因素最好，没有，只能勉强用单因素，都有，可以行亚组分析);没有的话，通过计算得来，也可以;实在没办法，你只能用Engauge软件自己提取(不过我发现这种方法当连续取点时候，有很多缺陷，见下面帖子里面我提到的缺陷问题)。不过HR的好处就是，不需要计算那么多时间截点，可以自己定义一个时间截点(根据临床经验，例如，胃癌定义5年的OS和PFS即可，要是分别计算一下3年及5年的OS+PFS 就更完美啦)。

3、预后的文章，肿瘤复发是一个很重要的指标，一般最好在文章里面要有体现。

(1). 你用HR做指标，不需要分别作1,3，5年生存率了，只要时间最长的那年的HR即可，一般选取随访终点时的HR作为指标。这样HR代表的是整体的情况，而1年和3年HR作指标都是不合适的;

(2). 另外，因为不同研究的随访截止时间不同，

可能存在严重的临床异质性，因此，我个人倒是觉得，是否可以用5年HR作为outcome呢?(不同肿瘤的最有意义的cutoff或者不同，不过个别肿瘤一般是5年为比较有意义的cutoff，你研究的肿瘤是什么就不知道了。不过很多研究一般随访都在60-72个月左右，所以取5年(60个月)，还是比较不错的);

(3). 假如不这样的话，也可以采用随访终点时间HR作指标，不过要是存在异质性，要进行合理的分析，或者进行亚组分析等等相关问题，同时注意，亚组分析增加了假阳性的概率，因此需要慎重。

(4). 其他指标如95%CI, Ln(HR),SE(ln(HR))等指标可以计算的。可以将软件import as 一个excel表格的形式，然后有一个Excel统计计算表格，具体如何操作，请参照A版的经典帖子，里面说的很清楚，很明白，学习1-2天基本就会了

还有一些新的问题：

第一：我研究的问题，基本纳入的研究，在5年以后实验组和干预组的生存曲线已经是平行的了，那么我是否只可以计算到5年的?因为多数研究曲线是只到5年的，有个别的研究到6年的(72个月)，并且这几个研究的5年---6年曲线是平行的，我又必要还继续包含这段时间吗?这种情况的 5-yearOS/PFS HR有差异吗?假如有，差异大嘛?(此问题已经解决，完成可以只计算5年的HR，结果没有变化，具体验证过程见下面。

第二：我发现了一个问题，假如在同一个横坐标上面取点，即使我事先在图中画一条竖线，穿越干预组和对照组，我描点的时候，无论我多么精确，这2个点理论上，应该在最终的excel生成1组数据，例如， 36,42.1%,24.1%; 然而，最终实际上却产生了2组数据，36, 42.3%, 24.2%; 36.01, 42.0%, 24.0%，这个问题如何解决呀?我希望做的是在同一个横坐标，只产生一组数据，这个误差倒是允许范围的，不过假如并没有事先画竖线，那么此时曲线A和曲线B的取点都具有随机性，上下曲线的取点问题更具有随机性，那么会产生更多多余的点，那么此时造成得误差可能要远远大于事先画竖线造成得误差，因此我觉得，必须要事前做竖线，然后尽量保证曲线A和B在同一个横坐标取点(结果假如是2组数据，这时候可以删除一组即可)，不知道我的理解是否正确?大家有没有遇到这个问题呢?

第三：我想在生存曲线上面上一些竖线，有没有什么简单点的方法?可以我自己选择位置画竖线，这样我就可以在自己觉得拐点比较多的地方多取几个点，在相对变化不大，甚至是水平线的地方少取几个点，不过这样还是解决不了同一个竖线，2条曲线取点，最后产生2组数据的问题!

第一个问题：可能有微小的差别，计算HR需要用全所有的随访数据，最后一年虽然两者曲线平行，但有差别，而这个差别肯定会为总的HR作贡献，至于如何改变，你得自己试验一下，算到5年和6年各用一次，如果有差别，个人以为应以6年为准，随访完整，不然，你相当于是选择性报道了全面一部分数据，而后一部分弃之不用。而且，不同随访期的数据是可以合并的，所以还是用全数据的好。

第二个问题：佩服兄弟的精益求精，但是这个问题恐怕是无法解决的，因为取点的时候是一个像素一个像素的移动，可以想象成以像素为单位的整数点移动，而软件更精确，36和36.01可能就是同一竖线上的点。

导致此结果还有个原因可能是：原始生存曲线图可能有点儿歪，旋转了一点点儿，就是x轴可能不是完全或者绝对水平，因为在photoshop等软件中旋转图像的时候也是以像素为单位改变，而不能连续改变。所以，即使画了竖线，但这条竖线和y轴不是绝对平行的，而在Enguagedigitizer中，(0,0)，(100，0)，(0,100)三个点取好后生成的X轴和y轴却是和原生存曲线图的x轴和y轴完全吻合(理论上)，无论原始图如何歪。

这两个原因都可能导致同一竖线，在2条曲线上对应的是不同横坐标啦。

理论上的探讨：可以尝试举个例子，采用极限法假设：

1)假设实验组A和对照组B从一开始到最终随访结束，没有任何一个人死亡，生存率从0-72个月均为100%，无论随访多长时间，2条曲线均是平行的，那么此时计算任何一年的HR和随访结尾年的HR必须是一致的;

2)同理，假如随访到5年以后，曲线开始平行，假如之后2组均没有死亡，一直保持平行，那么你曲线到6

年，抑或100年，或许结果都没有变化，这就是一般作者在曲线平行以后只再随访1-2年的原因;

因此我觉得，曲线平行之后，可以不用再计算了，生存曲线的研究是微积分的原理，个人认为是累计曲线斜率微积分后的均值问题，平行以后，2条曲线的斜率为0，任凭如何微积分也是为0，对整体的斜率均值没有影响(胡诌的，呵呵。当娱乐了)

1)因为Excel只有33个点可以用，这些点，我首先在所有拐点地方作图，在斜率变化大的地方作竖线，最后剩下的平均分配一下即可!

2)前辈，你的方法虽然密集，最终要进行人为的删减，这此时你是无法将Excel里面的点和曲线里面的拐点和切率变化大的地方像对应的(假如你没有事前画竖线的画，您只能靠肉眼了)，这样看来，我的方法理论上是有更大优势大，优于连续取点的方法。连续取点虽然看起来特别密集，其实在excel里面进行认为删减那个步骤，却产生了更大的误差(我认为连续取点最大的误差在此处，而不在软件里面取点那步)。

疑问5：计量资料知道实验组(样本量56)和对照组(样本量56)的样本均数，如何求得样本标准差SD，谢谢!如果求不出来，找作者咨询样本里每个病人的具体资料吗?

目前来说，这样的数据无法和M以及SD合并，我一般是在资料表格里面列出来，但是不算入统计

因为这个是用中位数来描述原始资料的集中趋势，用的四分位数描述原始资料的离散趋势，反应原始资料是偏态分布，是正偏态分布还是负偏态分布就不得而知了，偏态分布，我们如果使用平均数就不能很好的代表整体数据

这样的话，就求不出SD，更没有M，即使你要到原始资料，还是要用中位数来表示，因为原始资料不是正态分布

疑问6：我的一篇文章里面，P值取了0.05，而没有取大多数人采用的0.1，貌似很多人也存在这个疑问，到底是取哪个值更加理想呢?

对于取0.05还是0.1，这个问题上存在争议。我个人倾向于使用0.1，这样结论更稳定，更强健

如果P值<0.05，那么你取0.05和0.1都一样，都用随即模型

如果P值>0.1，那么你取0.05和0.1都一样，都用固定模型

但是如果P值介于两者之间呢，比如0.07，这时候，你取0.1，就用随机模型，那么95%CI范围增大

如果你取0.05，就用固定模型，95%CI范围变小，容易出现阳性结果，这样的阳性可能是假阳性，也会导致发表偏倚

所以，我个人更倾向于用0.1来定义，这样结果更稳定把

另外，纠正一个错误，用什么模型，和I2关系不大，甚至没关系，只看P值

疑问7：固定和随机效应模型的选取问题，见过一些文章是同时采取固定效应模型和随机效应模型，这时候就不需要讨论I2和P值的问题来，不知道这样是否值得借鉴?

关于模型的选用，也是存在争议的。大致有三派吧：

第一个，根据I2定义模型选用，常取用50%，也有采用其他的界值的，这一个为很多新手所使用，也就知道有异质性用随即模型

第二个，根据P值定义模型，具体情况参考第一个问题答案

第三个，都使用随即模型，可能很多新手不明白了，怎么这样，依据是什么呢?依据是：当异质性较小或者没有异质性时，用随机还是固定，结果基本上没有什么明显的差别，当异质性很大时，只能选用随即模型，所以可以说，在任何情况下，都使用随即效应模型，这个属于保守派

个人比较倾向于第三个观点和第二个中的定义P=0.1

不过这些都有被使用，看个人爱好吧，本来就没有很明确的规定，投稿的时候，审稿人是大爷，他说你错，你就要改

疑问8：文献(RCT)质量评价是否用 risk of bias?还是现在不多用的Jadad或者改良的Jadad?

对于RCT质量的评价，无论用risk of bias还是哪种形式的JADAD，个人认为没啥区别，因为质量评价是个很主观的，不那么客观，你严格，就质量差一些，你宽松，质量就好一些，这个也看审稿人的爱好要求吧。

质量评价是针对单个研究的，但是对于meta分析，合并研究，我不可能抓住哪一篇低质量研究不放，重要的是纳入的研究的总体的质量如何，强调一下，纳入研究的整体质量，而不是单个研究，这就存在纵向和横向写法，有的质量评价，在Results部分，会说Jadad评分的平均数或者中位数是多少，有的会具体的写出来多少个研究报道了随即方法，分配隐藏，双盲方法，随访等情况

疑问9：实用询证医学方法学这本书里讲到做敏感性分析时，如具有同质性，选择固定效应模型;如存在异质性时，先分析原因，使用敏感性分析或分层分析，使之达到同质后在用固定效应模型。我想请教您如何使用敏感性分析或分层分析达到同质?具体如何操作?

如具有同质性，选择固定效应模型;如存在异质性时，先分析原因，使用敏感性分析或分层分析，使之达到同质后在用固定效应模型

这还是关系到异质性的问题，也是meta分析新手最棘手，最害怕的事情，但是这一关必须过要不很难在循证道路上有提高

只要有meta分析存在，就会有异质性存在，临床异质性，方法学异质性，统计学异质性，往往临床异质性和方法学异质性会带来统计学异质性，现在比较常用的衡量异质性的定量指标是I2，I2=0%，只能说没有统计学异质性，并不能说没有其他两种异质性

所谓的同质也是相对的，没有绝对的同质，对于这句话的理解，同质了，就用固定效应模型，存在异质性时，先分析原因，使用敏感性分析或者分层分析可能会消除或降低异质性，或者找到异质性的来源，这样分开的亚组就同质了，可以用固定效应模型

可能你做了很多去寻找异质性来源的工作，但是并没有消除异质性，没有找到来源

Meta分析不灭，异质性就存在。异质性时meta分析的一个特点，任何一种方法都有优缺点

有异质性并不可怕，首先找到来源，给出合适的解释，但是初学者千万不可纠结于异质性而把自己套进去，最重要的是如何证明你的结论是可靠，强健的，这才是重点

当有明显的异质性时，下结论要严谨，不要太肯定

疑问10：比如我观察一种降糖药物对血糖的影响，一篇研究实验组血糖均数从11降到8，另一篇实验组从9降到7，那我是不是得输入他们降糖前后的差值，还是得先做一下统计，看他们基线相差是否有统计学意义，如果没有统计学意义，直接输入治疗后的数值就行?这些过程我在写文章时需要交待一下吗，因为我看的文章里好像基线都是P值大于0.05的。

我觉得你应该采用组间的组内变化比较

也就是你说的降糖前后差值

疑问11：找的危险因素的流行病学研究，但是在各研究中，暴露风险因素的暴露定义比较相差很大，有些是曾经ever vs. never，有些是大于》6 vs. <6年做比较，还有些是Nonregular vs. reguIlar ，发现很难合并，碰见这种情况该如何处理?

这种情况，因为暴露分级不统一，你可以做一个SR，系统综述，定性的描述目前的研究情况，可以列表给出，对每个纳入的文章进行分析，这可能是最好的办法了

疑问12：我做干预的meta很少，主要是危险因素的，我最近看了很多干预RCT的meta分析，发现大部分仍然采用Jadad评分标准，但是手册上是建议用风险评估工具的，请问倾向于用哪种?

干预meta分析的质量评价有很多种，但是主流也就是Jadad评分和考克兰风险偏倚评估这两种。对于这两种评价系统，我们先对比一下：

对比这两个系统可以发现其实两者是大同小异的

当然考克兰更具体详细

每个评价工具都有自己的优缺点

Jadad量表最大的缺点就是没有考虑分配隐藏，优点是简单易行，新手容易使用，量化，对比文章就可以知道给不给分，客观性相对强一些，主观性较低

考克兰评价最大的缺点是主观性很强，新手如果使用不当，会带来严重的错误，甚至笑话，优点就是全面，建立在Jadad基础上的一个更具体更全面的系统

但是工具不是盲目使用的，根据目前RCT的质量来看，Jadad并不过时，为什呢?如果一个研究质量好，那么采用Jadad也是满分，关键是现在的研究很多都不报告随机方法，盲法的使用，更不用分配隐藏问题了，基于这些，Jadad还是有自己的地位的

举个例子吧，对于有些RCT，比如外科系统的，很难实施双盲，那么拟采用Jadad可能就会降低研究质量

当然，考克兰也有自己的缺点，比如RCT，本身就随机，那么对于随机这一项，最低级别就是unclear，不存在high risk，对于其他一些项目，我估计研究者自己本身都不知道会不会存在这种问题，我们又怎么清楚呢?我们评价的时候就是给个unclear，这样的评价项目有好几个，叠加一起，某种程度上使得研究质量评估偏高于实际质量

对于质量评价的选择，每个人有自己的习惯，每个工具也有自己的优缺点，我们只需要根据实际情况进行灵活运用，不需要一味的打击或者废弃每个工具

我只能说，Jadad现在还不过时，基于现在的RCT质量

疑问13：有的文章只给出crude OR ，而另一些文章里面只给出 adjusted OR。如何合并? 2、如果需要合并 adjusted OR ，而个别文章只有crude OR,怎么办?3、使用adjustedOR值或crude OR进行合并各有何利弊呢?

1. 最好都使用adjsuted OR，如果原文只提供了crude OR，那也只能使用这个代替了，可以一起合并

2. 答案同问题1

3. 使用adjusted OR合并，在某种程度上消除其他混杂因素对结果的影响，校正后的OR结果更真实，我们一般都是优先使用adjusted OR

疑问14：荟萃分析局限性

理想Meta分析是指纳入所有高质量、同质的研究，无发表偏倚，并采用正确统计方法。然而，由于纳入所有研究十分困难，并且异质性和发表偏倚均无法避免，故Meta分析存在一定的局限性。

Meta分析属二次研究，是一种回顾性研究，无法消除合并研究的异质性，其论证强度不如多中心大样本RCT。异质性来源包括：① 病例来源(如亚洲、欧洲人群)不同;② 病例选择标准(如年龄、疾病分期、病理类型)不同;③ 干预措施(给药方式或维持治疗方案)不同;④ 对研究终点指标的定义不同，如生存期起点的定义不同可造成总体生存时间不同;随访间隔不同可造成无疾病进展期(PFS)不同。

目前，即使有临床试验注册网，亦难以获得全部阴性研究结果，不可能完全避免发表偏倚。2008年《新英格兰医学杂志》发表的一项关于抗抑郁药物临床试验发表偏倚现状的研究显示，在74项美国食品与药物管理局(FDA)注册研究中，约 31% 的临床研究结果未正式发表，其中主要为阴性研究结果。

疑问15：如何提高荟萃分析质量?

目前，Meta分析质量亟待提高。国外学者研究显示，科克伦(Cochrane)图书馆中的36篇Meta分析中的44.4%存在方法学问题，而其他杂志的103篇Meta分析中的79.3%存在方法学问题。提高Meta分析质量须注意以下4点：① 文献收集的全面性决定了结论的可靠性;② 合并文献的研究质量决定了结论的可靠性(如采用Chalmers评分、Jadad评分等评价RCT研究质量);③ 选择正确统计方法，如采用剪补法分析不同年限、人种、样本量及质量评分的研究④ 规范写作，严格按照Meta分析报告标准(PRISMA声明)写作。

来源：骨科在线orthonline