专栏名称: 灵活胖子的科研进步之路

医学博士，R语言及Python爱好者，科研方向为真实世界研究，生信分析与人工智能研究。

应用bibliometrix包进行文献计量学（三）

灵活胖子的科研进步之路 · 公众号 · 教育 · 2024-10-16 00:11

正文

A brief introduction to bibliometrix（三）

包网址：https://www.bibliometrix.org

教程网址：https://www.bibliometrix.org/vignettes/Introduction_to_bibliometrix.html

顶级作者的文献发表情况

AuthorProdOverTime函数计算并绘制作者在一段时间内的产量（以出版物数量和每年的总引用量为单位）。

函数参数是：

M是书目数据帧；
k是k个顶级作者的数量；
graph是一个逻辑。如果graph=TRUE，则函数绘制作者随时间的发表图。

topAU

## Table: Author's productivity per year
head(topAU$dfAU)

## Table: Auhtor's documents list
#head(topAU$dfPapersAU)

洛卡定律系数估计

函数lotka为科学生产力估计Lotka定律系数（Lotka A. J.，1926）。

洛卡定律将任何给定领域的作者发表的频率描述为平方反比定律，其中发表一定数量文章的作者数量与发表单篇文章的作者数量成固定比例。这个假设暗示洛卡定律的理论贝塔系数等于2。

使用lotka函数可以估计我们文献数据集的贝塔系数，并通过统计检验来评估这种经验分布与理论分布的相似性。

L 
# Author Productivity. Empirical Distribution
L$AuthorProd

L$AuthorProd表显示了我们示例中观察到的科学生产力分布。估计的贝塔系数为3.05，拟合优度等于0.94。科尔莫戈罗夫-斯米诺伏特加两个样本检验提供了0.09的p值，这意味着观察到的和理论的洛特卡分布之间没有显著差异。

您可以使用绘图函数比较这两个分布：

# Observed distribution
Observed=L$AuthorProd[,3]

# Theoretical distribution with Beta = 2
Theoretical=10^(log10(L$C)-2*log10(L$AuthorProd[,1]))

plot(L$AuthorProd[,1],Theoretical,type="l",col="red",ylim=c(0, 1), xlab="Articles",ylab="Freq. of Authors",main="Scientific Productivity")
lines(L$AuthorProd[,1],Observed,col="blue")
legend(x="topright",c("Theoretical (B=2)","Observed"),col=c("red","blue"),lty = c(1,1,1),cex=0.6,bty="n")

文献网络矩阵-Bibliographic network matrices

文章的属性通过文章本身相互联系：作者与期刊、关键词与出版日期等。

这些不同属性的连接生成可以表示为矩形矩阵（文章x属性）的二维网络。

此外，科学出版物经常包含对其他科学作品的引用。这产生了一个进一步的网络，即共引或耦合网络。

分析这些网络是为了捕捉基础研究系统的有意义的属性，特别是确定文献计量单位（如学者和期刊）的影响。

二分网络

CocMatrix是一个通用函数，用于计算选择元数据属性之一的二分网络。例如，要创建手稿x出版物源的网络，您必须使用字段标签“SO”：

A "SO", sep = ";")

A是一个矩形二进制矩阵，表示一个二分网络，其中行和列分别是手稿和来源。

按递减顺序对A的列和进行排序，您可以看到最相关的出版物来源：

sort(Matrix::colSums(A), decreasing = TRUE)[1:5]

按照这种方法，您可以计算几个二分网络：

引文网络 Citation network

A "CR", sep = ".  ")

作者网络 Author network

 A "AU", sep = ";")

国家网络 Country network

作者的国家不是文献数据框架的标准属性。您需要使用函数metaTagExect从隶属属性中提取此信息。

M "AU_CO", sep = ";"
)
# A

元标签提取-metaTagExtraction允许提取以下附加字段标签：作者的国家（Field="AU_CO"）；第一作者的国家（Field="AU_CO"）；每个引用参考文献的第一作者（Field="CR_AU"）；每个引用参考文献的出版来源（Field="CR_SO"）；和作者的附属机构（Field="AU_UN"）。Author keyword network

作者关键词网络 Author keyword network

A "DE", sep = ";")

Keyword Plus network

A "ID", sep = ";")

文献耦合 Bibliographic coupling

如果至少有一个引用来源出现在两篇文章的参考书目或参考文献列表中，则两篇文章被称为参考文献耦合（Kessler，1963）。

可以使用一般公式获得耦合网络：

其中A是二分网络。

函数bibookoNetwork从文献数据帧开始计算最常用的耦合网络：作者、来源和国家家。

bibloNetwork使用两个参数来定义要计算的网络：

analysis argument can be “co-citation”, “coupling”, “collaboration”, or “co-occurrences”.
network argument can be “authors”, “references”, “sources”, “countries”, “universities”, “keywords”, “author_keywords”, “titles” and “abstracts”.

以下代码计算经典文章耦合网络：

NetMatrix "coupling", network = "references", sep = ".  ")

因此，如果耦合强度仅仅根据文章共同包含的参考文献的数量来衡量。只有很少参考文献的文章往往更弱的书目耦合，这表明，切换到书目耦合的相对度量可能更实际。

规范化相似度函数计算网络顶点之间的关联强度、包容性、Jaccard或Salton相似度。规范化相似度可以使用参数规范化直接从networkPlot（）函数中调用。

NetMatrix "coupling", network = "authors", sep = ";")


net=networkPlot(NetMatrix,  normalize = "salton", weighted=NULL, n = 100, Title = "Authors' Coupling", type = "fruchterman", size=5,size.cex=T,remove.multiple=TRUE,labelsize=0.8,label.n=10,label.cex=F)

文献共引 Bibliographic co-citation

当两篇文章都被第三篇文章引用时，我们谈论两篇文章的共引。因此，共引可以被视为文献耦合的对应物。

可以使用一般公式获得共引网络：

使用函数bibleoNetwork，您可以计算经典的参考共引网络：

# NetMatrix

文献协作 Bibliographic collaboration

科学协作网络是一个网络，其中节点是作者，链接是共同作者，因为后者是最有据可查的科学协作形式之一（Glanzel，2004）。

可以使用一般公式获得作者协作网络：

使用函数bibleoNetwork，您可以计算作者的协作网络：

# NetMatrix

或国家合作网络：

# NetMatrix

to be continued

广告-新课推荐

高分文章新方法-基于R语言的动态预测模型课程第三期

开课目的及前言

预测模型类文章目前总结起来发展经历了以下三个阶段：

基于传统流行病学的列线图模型（本质都是cox回归及glm回归），简单的统计学分析模型，是模型依赖的方法，临床上实际情况很难满足其前提假设，实际效果不好。
基于机器学习/深度学习的预测模型的构建（在数据上提高了维度，在算法上引入了机器学习），虽然算法上引入了机器学习模型，处理数据更加灵活，模型的假设也更少。但是在使用的数据上还是患者的一次基线数据进行预测，与临床实际不符。
基于纵向数据的动态预测模型（基于纵向多次随访数据，模型应用联合模型等动态预测模型方法），应用患者的多次随访数据对最终的生存结果进行预测，从数据和方法上都更类似于临床实际。

考虑到动态预测模型有以下特点，因此必然是后续高分文章的必备方法：

数据上必须有同一个患者的多次随访数据，相对于既往横断面一次基线数据，数据的收集难度更大，而且动态预测模型需拟合纵向的线性混合模型，因此需要的数据量较大。这就提示我们如果能收集到如上数据更加容易发高分文章。
应用方法学动态预测模型需首先掌握普通生存分析及普通预测模型的方法，并且还需要熟悉纵向数据分析的广义线性混合模型，再次基础上还需要掌握tidyverse语法基础来将自己的数据转换为满足函数要求的纵向数据，另外对于联合模型，模型的结合形式及变量选择也均需要从临床背景及统计学方法考虑。

授课老师

1 灵活胖子

双一流学校肿瘤学博士毕业，目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究，生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇，累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学，在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。

2 Rio

医学博士，临床医生。发表中英文文章 10 余篇。R 与 python 爱好者。

课程目录及安排

第一部分：R语言基础部分

第二部分：传统临床基础统计图表制作

第三部分：常规生存分析部分

第四部分：高级生存分析部分

第五部分：动态预测模型部分

授课形式及时间

授课形式：远程在线实时直播授课。

授课时间：2024年12月开课，总课时不少于30小时，每周利用休息时间进行4-6小时的授课，预计4-6周完成所有授课内容。

答疑支持：建立课程专属微信群，1年内课程内容免费答疑。

视频回看：3年内免费无限次回看。

课程售价及售后保证

课程售价：总价3000元，报名可先交300元预定，开课后2周内交齐即可

对公转账等手续务必提前联系助教

承办公司：天企助力（天津）生产力促进有限公司

奖励政策：学员应用所学内容发表IF 10+文章可退还学费（具体要求及流程需要咨询助教）

报名咨询

可联系我的助教进行咨询