最近不少小伙伴吐槽,0实验生信文章太难发啦~哎~别急,纯生信文章不是不好发,大概率是研究不够完整、缺乏验证,或者是
选题缺乏创新等原因(
PS:如果不清楚自己的文章问题具体出在哪里,可以找馆长帮你评估一下!
)。今天馆长通过一篇近期刚发表的经典生信文带大家捋一下思路。
孟德尔随机化(MR)的火热程度不用馆长再多说了吧,不少宝子通过馆长已经尝到了“甜头”。那再搭配上经典的转录组学,又会擦出怎样的火花呢?
这是来自中医科学院谢雁鸣团队的SCI,作者首先利用
双样本MR
评估不同风险因素与缺血性中风之间的因果关系,然后进行
共定位
分析探究其共享的遗传机制;随后,利用GEO数据集进行
差异分析
、
免疫浸润
分析,通过
机器学习
筛选关键基因,构建
列线图模型
;最后,使用
验证集
验证了上述结果。
文章思路清晰,逻辑环环相扣,验证集的使用使结果具有普适性,哪怕没有湿实验也一样具有可靠性!
(
ps:
本文思路经典却不老套,MR+共定位+差异分析+机器学习算法层层叠加,方法严谨,绝对是复刻的不二之选!对本文研究方法或者思路感兴趣的朋友,欢迎来找馆长定制专属于你的方案吧~)
定制生信分析
云服务器租赁
加好友
备注“99”
领取试用
l
题目:探索
3
种危险因素与缺血性中风的遗传关联:一项综合生物信息学研究
l
杂志:Stroke
l
影响因子:IF=
7.8
l
发表时间:2024年
6
月
缺血性中风(IS)是一种由于脑血管阻塞导致局部脑缺氧和缺血,最终引起脑细胞死亡的疾病。越来越多的证据表明,血压、血糖和循环脂质与IS有着密切的关系。然而,这三个风险因素与IS之间的遗传关联尚不清楚。
该研究先收集筛选基因数据和表达数据集,进行MR分析评估因果关系,再进行基因共定位分析,接着对缺血性中风数据集进行差异分析等,利用机器学习识别特征基因,最后用验证数据集验证结果并进行聚类分析,探究基因功能机制。
1.MR分析结果
MR分析的显著性阈值设为 P=0.0015,排除水平多效性结果后,确定了与IS有潜在因果关联和强因果关联的暴露数据集。经元分析整合,发现LDL - c等水平增加与IS风险增加相关,apoA1水平较高与 IS 风险降低相关,且一些指标与 IS 存在显著遗传相关性(图1)。
图1 血压、血糖、循环脂质与缺血性中风之间的MR分析结果
2.共定位分析
我们通过共定位分析20个数据集,确认了LDL-c、apoB、EPA、收缩压和舒张压与缺血性中风(IS)共有相关基因。分析显示这些因素的后验概率值均超过50%,表明它们与IS共享基因关联。通过可视化,鉴定出73个与暴露和IS相关的基因。
3.差异表达基因鉴定与分析
对转录组数据进行分析确定了16个差异基因(DEGs),并显示这些DEGs在染色体上的具体位置。相关性分析结果显示,DEGs之间主要为正相关(图2)。
图2 差异表达基因鉴定与分析
4.免疫浸润分析
在免疫细胞浸润分析中,发现对照组和IS组在六种免疫细胞的表达上存在显著差异。CD8 T细胞、活化自然杀伤细胞和M2巨噬细胞在对照组表达较高,而M0巨噬细胞、静止B肥大细胞和单核细胞在IS组表达较高。DEAGs与这些免疫细胞主要呈现负相关(图3)。
在在构建的四个机器学习模型中,广义线性模型展现了最高的ROC曲线下面积和最低的残差值,因此被选为进一步分析。该模型确定了FURIN、TOMM40、HDDC3、ALDH2和MAN2A2这五个特征基因的重要性得分,评估了它们与缺血性中风(IS)风险的关联。决策曲线显示模型具有高精度,且通过验证数据集进一步确认了模型的有效性。特征基因的eQTL和pQTL的MR分析结果支持了这些发现。
图3 机器学习,及列线图的构建与验证
综上,本研究通过整合生物信息学分析,发现血压、特定血脂与缺血性中风的发生存在因果关联,并识别了与这些风险因素相关的基因,为中风预防和治疗提供了新的分子靶点。全文思路严谨,数据全面,MR分析联合多种机器学习算法,再加上善用公共数据库挖掘,强强联手打造出一篇7分+的亮眼MR文章。对本文感兴趣的朋友快来扫阿妈联系馆长,为您量身定制高分法宝~
点赞、分享与在看,我至少要拥有一个吧~
文献信息:PMID: 38591222
DOI: 10.1161/STROKEAHA.123.044424