专栏名称: YND科研绘图
用自己的实践积累打造纯原创3Dmax教程,提供max及渲染器各种版本的下载,从初级教程到高级教程应有尽有,更有细心及专业的问题解答,帮你完成从小白到大神的蜕变!
目录
相关文章推荐
手游那点事  ·  跳出腾讯,掏空积蓄8个月做出demo:为了“ ... ·  2 天前  
昆明广播电视台  ·  宣告停运,可申请退款! ·  昨天  
昆明广播电视台  ·  宣告停运,可申请退款! ·  昨天  
完美Excel  ·  开始深入研究deepseek ·  2 天前  
Excel之家ExcelHome  ·  几个常用Excel公式,简单高效又实用 ·  4 天前  
51好读  ›  专栏  ›  YND科研绘图

大数据分析中,如何做文献检索

YND科研绘图  · 公众号  ·  · 2020-11-12 16:42

正文

点击 ↑↑↑,关注临床科研”


关键词: SCI论文;大数据分析;文献检索

最近后台请我们做大数据分析的留言非常多。
其实,我们每次做临床科室大数据解析的时候,都战战兢兢、如履薄冰。因为担心会有漏检,或者出现错误。

很多朋友也发信问,我们如何做大数据分析。 其实大数据分析只是手段, 分析的内容是PubMed检索结果

就如我们说meta分析是trash in, trash out。如果分析的原始文献做的很差,那么meta分析技术再好,分析结果也是不可靠的。
大数据分析也是如此,检索是最重要的环节 。如果检索不规范,那么分析结果也只能增添笑料。

所以我们就以正在进行的针对“内分泌科”的检索为例,说明我们检索中遇到的问题和处理方法。


1,检索过程中, 遇到最常见问题是: 作者姓名和单位拼写不统一。

论文发表时作者及其单位的标记方式不准确或者不统一, 是检索过程中遇到最多的问题 导致检索报告中不能认为这是一个单位或者一个人。

1), 姓名拼写 不一致。
大都是在名为两个字时,英文拼写名字是否加横杆,造成了不一致。比如张三丰,英文拼写为Zhang, Sanfeng,还是Zhang San-feng,少见情况下还有Zhang San Feng。

比如之前在解析放射科时,有群友留言: 徐辉雄 教授也非常有名。我们复查时发现,徐教授有两个英文拼写方法和单位,分别是:
Xu, Hui-Xiong ,单位是The First Affiliated Hospital, Sun Yat-Sen University, The Center of Guangdong Province for the Study of Diagnostic Ultrasound and Interventional Therapy;检索到42篇论文,积分98.6分。
Xu, Huixiong, 单位是Shanghai Tenth People's Hospital Tongji University School of Medicine Shanghai;检索到9篇论文,积分91分。
合起来排名会非常高,进入到前三名。但是分开就会落在后面。

姓名如何拼写是标准的?
这个问题,我们在20年前丁香园论坛里就做了好久的讨论,当时比较一致的意见是“Zhang San-feng”。我当时就支持和采用了这种拼法,所以早期发表的SCI论文都是有一个“-”, 但是现在看,这个拼法是不规范的。
正确的方式, 是护照的拼写规范:Zhang Sanfeng。

2),单位的英文拼写问题非常多。
比如我们之前的追问“ 浙江大学医学院附属第一医院究竟有几种英文写法? ”。其大学、医院、英文网站、logo等都不统一。

正确的方法应该是, 采用机构给出的统一规范的英文拼写。


2,以内分泌的检索时遇到的问题为例。

在初检中,我们发现瑞金医院内分泌科的论文发表数量连国内前十名都排不进。这和我们的感觉很不一致。我们做了如下调整:

1),完善“内分泌科”的检索词。
我们做的第一步是从科室的名称入手,完善检索词。特别针对如瑞金医院内分泌科是“ 内分泌代谢病学科 ”这些科室信息,做了补充。

其他检索,通常只需要一个检索词,如Radiology;但是针对内分泌科,我们最后不得不用了如下检索词:
"Endocrine"[Affiliation] OR "Endocrinology"[Affiliation] OR "metabolic diseases"[Affiliation] OR "Diabetes"[Affiliation]

2),排除干扰检索词。
我们在核对大数据分析结果是,发现应用上述检索词,中国内分泌科最知名教授中排名第一的是:
Qiao, Jie,Department of Obstetrics and Gynecology, Beijing Key laboratory of Reproductive Endocrinology and Assisted Reproductive Technology and Key Laboratory of Assisted Reproduction, Ministry of Education, Center for Reproductive Medicine, Peking University Third Hospital
这显然不对。
仔细看,哦,Qiao, Jie的科室中有生殖 内分泌学 (Reproductive Endocrinolog y )。


所以,我们针对检索结果进一步把“ Reproductive ”等干扰词汇排除出去。

尽管如此,我们发现瑞金医院发表的论文数量还是远远低于其他医院。

3),合并“医院”的检索词。
找一个医院发表论文时的单位拼写方法,以一个代表性专家是最有效的。所以我们就以“ning, guang[Author]”做了检索,结果让人大吃一惊。
瑞金医院在我们的文献鸟App中竟有16个不同的英文拼写方法。
其实文献鸟单位拼写都是来自于Medline数据库,这意味着 在Medline数据库中,瑞金医院的表达方式也多种多样

所以我们的同事对这些不同的拼写的输出结果做了合并。

4),排除非SCI期刊。

考虑到Medline最近几年把中华系列杂志收录进去,大部分中华写了的中文期刊大不被是SCI收录。所以在进一步的检索中尽可能排除中华系列杂志。


4),双重核对。
尽管完成了上述3步,仍然显示瑞金医院内分泌发表的SCI论文不是很突出。

所以我们再次通过 PubMed检索平台进行检索 ,看看2018年之后与北京协和医院相比,瑞金医院发表的论文总数。
结果显示,2018年之后,北京协和医院内分泌科发表了510篇SCI论文,而瑞金医院大概发表了285篇SCI论文。
之所以用大概,是因为我们可以合并我们的文献鸟App中瑞金医院的不同英文拼写,却无法修改Medline数据库中瑞金医院的不同英文拼写。

然后, 再次用文献鸟进行核对 。对检出的结果按照第一单位区分,发现其中的152篇标记为瑞金医院为第一单位。


这个结果,与我们最后进行分析的论文数量一致。说明我们没有漏检。


在这个检索基础上,我们就可以继续进行大数据分析了。


报告机构简介:

美国Healsan Consulting(恒祥咨询)公司,特长于医学生物大数据分析和临床科研数据库数据利用,致力于帮助中国医生直接从中国大陆申请美国绿卡。公众号主页面回复“







请到「今天看啥」查看全文