专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
BioArt  ·  Cancer ... ·  昨天  
生物制品圈  ·  招聘职位下降12%!2024Q3美国生命科学 ... ·  4 天前  
51好读  ›  专栏  ›  生信人

这思路发低不了一点!五张图、无实验11分!

生信人  · 公众号  · 生物  · 2024-11-12 07:05

正文

孟德尔分析太酷啦!!一定要看到最后!   

基于公开数据,没有实验,也没有复杂的分析!总结下全文思路不过是:基因集(线粒体)+表观基因组关联分析(EWSA)+孟德尔=eBioMedicine IF 11.1 !!  

2023/12/15日发表在eBioMedicine IF 11.1的文章“炎症性肠病发病机制中线粒体功能障碍分子网络的多组学见解Multi-omic insight into the molecular networks of mitochondrial dysfunction in the pathogenesis of inflammatory bowel disease”.  

线粒体功能障碍与炎症性肠病 (IBD) 的发生有关,但遗传病理生理学尚未完全阐明。作者基于公开数据,采用孟德尔随机化和共定位分析,通过整合多组学来研究线粒体相关基因与IBD之间的关联。

2024年,登陆孟德尔随机

表观基因组关联研究(EWAS)+孟德尔

一、背景    

炎症性肠病(IBD),包括克罗恩病(CD)和溃疡性结肠炎(UC),会造成相当大的健康负担。胃肠上皮中的线粒体功能在维持肠道健康方面起着至关重要的作用。越来越多的研究表明线粒体功能障碍与IBD的发展有关尽管线粒体在IBD发病机制中的关键作用已被承认,但特定的线粒体相关基因及其对IBD的下游影响仍然难以捉摸。

孟德尔随机化 (MR) 分析使用遗传变异作为工具变量,以增强对暴露与结果之间因果关系的推断。与观察性研究相比,这种方法不太容易受到混淆和反向因果偏差的影响,因为遗传变异在受孕时是随机分布的,并且不能通过疾病发作来改变。大规模GWAS和分子数量性状位点(QTL)数据的日益普及,研究人员能够在甲基化、表达和蛋白质丰度方面探索线粒体相关基因调控与IBD之间的因果关系。

在这里,作者从数据获取公开数据,炎症性肠病遗传学联盟(发现)、英国生物银行(复制)和 FinnGen 研究(复制)中获得与 IBD 及其两种亚型的遗传关联,mQTL-eQTL 和 eQTL-pQTL 之间的多组学数据分别来自线粒体基因甲基化、表达和蛋白质丰度水平的汇总数据分别来自相应的甲基化、表达和蛋白质数量性状位点研究。进行基于汇总数据的孟德尔随机化分析,以评估线粒体基因相关分子特征与IBD的关联。进一步进行共定位分析,以评估鉴定出的信号对是否共享因果遗传变异。

结果发现线粒体 PARK7 基因与 IBD 风险相关,线粒体 FIS1、PDK1 和 ACADM 基因与 UC 风险相关,证据来自多组学水平。鉴定与IBD相关的线粒体基因,增强对IBD发展致病机制的理解。    

二、方法

1、研究流程

炎症性肠病公开可用的数据集,包括国际炎症性肠病遗传学联盟(IIBDGC),UK Biobank研究,FinnGen 研究和其他大规模GWAS。IIBDGC数据集作为主要的训练队列,UK Biobank研究和FinnGen研究作为验证队列进行结果复制。线粒体基因的工具变量从甲基化、基因表达和蛋白质丰度水平提取。

1)采用基于摘要数据的孟德尔随机化(SMR)来评估线粒体基因甲基化、表达和蛋白质丰度与IBD及其亚型风险的相关性。

2)共定位分析,以检测IBD与已鉴定的线粒体相关mQTL、eQTL或具有coloc R包的pQTL之间的共同因果变异。

3)整合来自三个调控层的结果,解析线粒体基因调控与IBD的关联,。

4)对线粒体相关基因甲基化和表达、基因表达和蛋白丰度之间的因果关系进行MR分析。进一步对已识别的关联进行共定位分析,以排除关联是由连锁不平衡引起的可能性(图1);    

图1  

2、甲基化、表达和蛋白质数量性状位点的数据来源  

血液中的SNP-CpG关联是由McRae等人欧洲血统个体中从甲基化数量性状位点(mQTL)数据中获得的。

血液表达数量性状位点(eQTL)数据集提取自eQTLGen联盟;    

循环蛋白水平遗传关联的汇总统计数据提取自Ferkingstad 等人对 35,559 名冰岛人进行的蛋白质数量性状位点 (pQTL) 研究。

组织特异性表达 eQTL 数据通过基因型组织表达 (GTEx) 门户网站检索(https://gtexportal.org/home/).    

 

3、线粒体相关基因的数据来源

线粒体相关基因通过MitoCarta3.0进行鉴定,该软件提供了1136个人类线粒体基因的清单利用该目录,在QTL数据集中筛选鉴定(mQTL、eQTL 和 pQTL,P < 5 × 10−8)和线粒体基因表达、甲基化、蛋白质有关的基因,分别来源于mQTL、eQTL和pQTL数据集。     

 

4、IBD结果数据集  

IBD 及其两种亚型的汇总水平数据来自 IIBDGC、FinnGen 研究和UK Biobank研究。训练队列利用IIBDGC数据集,而验证队列则涉及利用UK Biobank研究和FinnGen研究的数据     

 

三、结果

(一)线粒体基因甲基化和IBD  

1、SMR分析线粒体基因甲基化对IBD及其亚型的因果效应:

采用基于摘要数据的孟德尔随机化(SMR)来评估线粒体基因甲基化、表达和蛋白质丰度与IBD及其亚型风险的相关性,应用依赖仪器 (HEIDI) 检验中的异质性来区分多效性与连锁。使用 Benjamini-Hochberg 方法调整 P 值以控制 ɑ = 0.05 时的错误发现率 (FDR)。    

与UC风险相关115个独特基因附近共有247个CpG位点通过边际显著性(P < 0.05),多次测试校正后,在 16 个独特基因附近确定 29 个 CpG 位点(图 2、图3);有191个与CD风险相关的CpG位点,在多次比较校正后,9个独特基因中的17个CpG位点显示显著关联。      

 

2、共定位证分析:发现在已鉴定的UC风险相关 37 个信号中,发现 10 个独特基因附近的 19 个具有 strone 共定位证据支持 (PPH4 >0. 70)。CD风险相关的CpG位点共定位分析对BOK附近的 cg21249771、cg27088072、cg02747319、cg04255879、cg19797930、cg04369964(位于DNAJC4)、cg01108112 和 cg12603531(位于DNLZ)、cg18642234 和 cg05551922(位于GPX1)、cg14316865(位于PMPCA)有很强的支持。     

 

3、结果复制:在这些已鉴定的 CpG 位点中,DNLZ附近 cg12603531,MCL1附近 cg02961109 和 cg18016565、ACOT附近 cg25165880 和PARK7附近 cg11518359 的关联在成功复制.

cg01108112 的关联在 FinnGen 中复制,cg12603531 和 cg14316865 的关联在UK Biobank中复制。      

 

    

图2    

图3

         

 

(二)线粒体基因表达和IBD  

1、SMR分析线粒体基因表达对IBD及其亚型的因果效应:

总共有67个关联被确定为与IBD名义上显着的相关性(P < 0.05)。

2、多次检测校正和共定位分析

遗传学预测TUFM表达水平较高(OR 1.12,95%CI 1.08–1.17;PPH4 = 0.74)、MTX1(OR 1.31,95% CI 1.17–1.47;PPH4 = 0.82)、MRPL20(OR 1.43,95% CI 1.21–1.68;PPH4 = 0.83)、CISD1(OR 1.10,95% CI 1.05–1.15;PPH4 = 0.72)、BCL2L11(OR 1.92,95% CI 1.37–2.69;PPH4 = 0.91)和PMPCA(OR 15.12,95%CI 5.16–44.37;PPH4 = 0.72)与IBD风险呈正相关。    

通过调整多重检测和检测共定位证据 (PPH4 >0.7),遗传学预测PMPCA(OR 28.26, 95% CI 7.13–111.90)、TUFM(OR 1.18, 95% CI 1.22–1.25) 和CISD1(OR 1.17, 95% CI 1.10–1.24) 表达增加 1 个 SD 与 CD 风险增加相关;然而,遗传学预测FDPS(OR 0.22,95%CI 0.11-0.41)和GPX1(OR 0.23,95%CI 0.14-0.38)的1 SD增加与CD风险降低相关。

         

 

在FDR校正和过滤共定位证据后,遗传学预测MRPL20(OR 1.49,95%CI 1.22-1.82)、BCL2L11(OR 2.22,95%CI 1.45-3.39)和PMPCA(OR 8.73,95%CI 2.97-25.64)表达增加1个SD与UC风险增加相关,而遗传学预测MRPL23增加1个SD(OR 0.48,95%CI 0.35-0.66),NDUFAF7(OR 0.64,95% CI 0.50-0.83)、GLDC(OR 0.71,95% CI 0.60-0.85)、ABHD11(OR 0.83,95% CI 0.75-0.92)与 UC 风险降低相关。 

3、结果复制:BCL2L11协会在FinnGen和英国生物银行复制;TUFM MRPL20、CISD1PMPCA的关联在 FinnGen 中复制;PMPCA、TUFM和GPX1在 FinnGen 研究中被复制;FDPS在两个数据集中均被复制。MRPL23ABHD11在UK Biobank研究和 FinnGen 研究中重复;MRPL20、MRPL23BCL2L11PMPCA在FinnGen研究中重复. 

 

   

表1

(三)线粒体蛋白和IBD   

有11、9和12种线粒体蛋白分别与IBD、CD和UC风险相关,P<0.05水平。在对多项检测进行调整后,遗传学预测的较高水平的 PARK7(OR 0.36,95% CI 0.25–0.52)和 HINT1(OR 0.47,95% CI 0.30–0.74)与 IBD 风险呈负相关(图 4)。         

 

    

遗传学预测,较高水平的 HINT1 与 CD 风险降低相关 (OR 0.26, 95% CI 0.14–0.49),较高水平的 ACADM (OR 0.67, 95% CI 0.55–0.83)、PDK1 (OR 0.63, 95% CI 0.49–0.81)、FIS1 (OR 0.63, 95% CI 0.47–0.83) 与 UC 风险降低相关(图 4)。

在 PARK7 和 IBD 之间观察到共定位证据 (PPH4 = 0.70)。ACADM (PPH4 = 0.86) 和 PDK1 (PPH4 = 0.83) 在 UC 中具有高度共定位的支持证据。

图4

(四)整合来自多组学水平的证据   

整合来自多组学的证据后,确定两个具有一级多组学证据的基因,包括PARK7ACADM,因为它们与 IBD 和 UC 相关联。PDK1被鉴定为 UC 的 2 级基因,FISI 被鉴定为 UC 的 3 级基因;在UK Biobank和FinnGen研究中靶基因-IBD关系的复制中,大多数关联保持一致的方向(图 5、图6;表2)。    

对线粒体相关基因甲基化和表达、基因表达和蛋白丰度之间的因果关系进行MR分析:在MR分析中,4个鉴定基因的表达与相应的蛋白质水平呈正相关;ACADM中 cg05467918 的甲基化与ACADM的低表达相关。同样,在PARK7(cg10385390) 和PDK1(cg17679246) 中也观察到基因甲基化与基因表达之间的反向关联,这与 IBD 和 UC 的保护作用相吻合。    

 

共定位分析:除 cg04033559 在 PDK1 附近和PDK1表达之间的共定位外,mQTL-eQTL 和 eQTL-pQTL 之间存在强有力的证据 (PPH4 >0.70);

表2


图5

图6    

四、思路总结

(一)基础配置:基因集(线粒体)+表观基因组关联分析(EWSA)+孟德尔;主打一个稳定发挥!来看看近期文章有多秀!

1、IgE(基因集)+EWSA+孟德尔,分析疾病(哮喘)

作者基于公开数据分析,分析了血清免疫球蛋白E(IgE)相关甲基化、基因表达特征,整合哮喘人群的 eQTM 和 MR 分析,鉴定了IgE介导表观遗传促进疾病的分子机制;    

2、线粒体(基因集)+EWSA+孟德尔,分析泛癌

基于公开数据,线粒体相关基因表达、表观调控和蛋白转录特征和泛癌的关系;纳入18种常见癌症、eQTL、mQTL和pQTL的汇总统计数据;通过孟德尔随机化鉴定了线粒体相关基因与泛癌之间的潜在因果关系    

         

 

(二)升级配置:

1、影像特征(脑白质高信号)+EWSA+孟德尔

基于公开数据,分析了MRI影像中白质高信号(WMH) 与大脑、血液中 DNA 甲基化之间的关联。并通过药物重新定位分析坚定了白质高信号的靶向药物。    

       

 

2、生活习惯(饮食质量)+EWSA+孟德尔 

使用公开队列的数据以及血液 DNAm 信息,分析饮食相关的表观遗传特征与心脏代谢因素[体重指数(BMI)、糖尿病、血脂和血压]之间是否存在因果关系。其中,饮食质量用三种饮食质量评分 [MMDS、健康植物性饮食 (HPDI) 和停止高血压的饮食方法 (DASH)] 来表征。

2024年,登陆孟德尔随机

表观基因组关联研究(EWAS)+孟德尔