其实,我们每次做临床科室大数据解析的时候,都战战兢兢、如履薄冰。因为担心会有漏检,或者出现错误。
很多朋友也发信问,我们如何做大数据分析。
其实大数据分析只是手段,
分析的内容是PubMed检索结果
。
就如我们说meta分析是trash in, trash out。如果分析的原始文献做的很差,那么meta分析技术再好,分析结果也是不可靠的。
大数据分析也是如此,检索是最重要的环节
。如果检索不规范,那么分析结果也只能增添笑料。
所以我们就以正在进行的针对“内分泌科”的检索为例,说明我们检索中遇到的问题和处理方法。
1,检索过程中,
遇到最常见问题是:
作者姓名和单位拼写不统一。
论文发表时作者及其单位的标记方式不准确或者不统一,
是检索过程中遇到最多的问题
,
导致检索报告中不能认为这是一个单位或者一个人。
大都是在名为两个字时,英文拼写名字是否加横杆,造成了不一致。比如张三丰,英文拼写为Zhang, Sanfeng,还是Zhang San-feng,少见情况下还有Zhang San Feng。
比如之前在解析放射科时,有群友留言:
徐辉雄
教授也非常有名。我们复查时发现,徐教授有两个英文拼写方法和单位,分别是:
Xu, Hui-Xiong
,单位是The First Affiliated Hospital, Sun Yat-Sen University, The Center of Guangdong Province for the Study of Diagnostic Ultrasound and Interventional Therapy;检索到42篇论文,积分98.6分。
Xu, Huixiong,
单位是Shanghai Tenth People's Hospital Tongji University School of Medicine Shanghai;检索到9篇论文,积分91分。
合起来排名会非常高,进入到前三名。但是分开就会落在后面。
这个问题,我们在20年前丁香园论坛里就做了好久的讨论,当时比较一致的意见是“Zhang San-feng”。我当时就支持和采用了这种拼法,所以早期发表的SCI论文都是有一个“-”,
但是现在看,这个拼法是不规范的。
正确的方式,
是护照的拼写规范:Zhang Sanfeng。
正确的方法应该是,
采用机构给出的统一规范的英文拼写。
在初检中,我们发现瑞金医院内分泌科的论文发表数量连国内前十名都排不进。这和我们的感觉很不一致。我们做了如下调整:
我们做的第一步是从科室的名称入手,完善检索词。特别针对如瑞金医院内分泌科是“
内分泌代谢病学科
”这些科室信息,做了补充。
其他检索,通常只需要一个检索词,如Radiology;但是针对内分泌科,我们最后不得不用了如下检索词:
"Endocrine"[Affiliation] OR "Endocrinology"[Affiliation] OR "metabolic diseases"[Affiliation] OR "Diabetes"[Affiliation]
我们在核对大数据分析结果是,发现应用上述检索词,中国内分泌科最知名教授中排名第一的是:
Qiao, Jie,Department of Obstetrics and Gynecology, Beijing Key laboratory of
Reproductive Endocrinology and Assisted
Reproductive Technology and Key Laboratory of Assisted Reproduction, Ministry of Education, Center for Reproductive Medicine, Peking University Third Hospital
仔细看,哦,Qiao, Jie的科室中有生殖
内分泌学
(Reproductive
Endocrinolog
y
)。
所以,我们针对检索结果进一步把“
Reproductive
”等干扰词汇排除出去。
尽管如此,我们发现瑞金医院发表的论文数量还是远远低于其他医院。
找一个医院发表论文时的单位拼写方法,以一个代表性专家是最有效的。所以我们就以“ning, guang[Author]”做了检索,结果让人大吃一惊。
瑞金医院在我们的文献鸟App中竟有16个不同的英文拼写方法。
其实文献鸟单位拼写都是来自于Medline数据库,这意味着
在Medline数据库中,瑞金医院的表达方式也多种多样
。
所以我们的同事对这些不同的拼写的输出结果做了合并。
考虑到Medline最近几年把中华系列杂志收录进去,大部分中华写了的中文期刊大不被是SCI收录。所以在进一步的检索中尽可能排除中华系列杂志。
尽管完成了上述3步,仍然显示瑞金医院内分泌发表的SCI论文不是很突出。
所以我们再次通过
PubMed检索平台进行检索
,看看2018年之后与北京协和医院相比,瑞金医院发表的论文总数。
结果显示,2018年之后,北京协和医院内分泌科发表了510篇SCI论文,而瑞金医院大概发表了285篇SCI论文。
之所以用大概,是因为我们可以合并我们的文献鸟App中瑞金医院的不同英文拼写,却无法修改Medline数据库中瑞金医院的不同英文拼写。
然后,
再次用文献鸟进行核对
。对检出的结果按照第一单位区分,发现其中的152篇标记为瑞金医院为第一单位。
这个结果,与我们最后进行分析的论文数量一致。说明我们没有漏检。
在这个检索基础上,我们就可以继续进行大数据分析了。
美国Healsan Consulting(恒祥咨询)公司,特长于医学生物大数据分析和临床科研数据库数据利用,致力于帮助中国医生直接从中国大陆申请美国绿卡。公众号主页面回复“