专栏名称: 生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
目录
相关文章推荐
丁香妈妈  ·  宝宝湿疹会自愈吗? ·  2 天前  
丁香妈妈  ·  宝宝脚底爱出汗,是怎么回事? ·  2 天前  
加国无忧  ·  "富人喜欢实惠"!Costco赢得高收入家庭 ... ·  2 天前  
加国无忧  ·  "富人喜欢实惠"!Costco赢得高收入家庭 ... ·  2 天前  
常青藤爸爸  ·  开学一忙,居然把这么重要的事儿给忘了…… ·  3 天前  
丁香妈妈  ·  孩子身高达标吗?多高算正常?2025 ... ·  4 天前  
51好读  ›  专栏  ›  生信图书馆

什么是mintMR?清华大学与芝加哥大学等顶尖团队联手打造0实验高分文章!内卷的浪潮还是卷到了孟德尔随机化了!还不进来一看究竟!

生信图书馆  · 公众号  ·  · 2024-08-16 19:00

正文

站在窗台,眺望远方,夏天的风吹进馆长的心中,将科研资讯送到你手中!Hello!伙伴们!又见面啦!馆长今天给大家带来了比夏天还火热的生信界宠儿——孟德尔随机化。内卷的浪潮还是卷到了孟德尔随机化呀!不止双样本孟德尔随机化,还有多背景多变量综合孟德尔随机化?什么东西?清华大学携手芝加哥大学、圣母大学顶尖团队打造0实验高分文章!下面,就让馆长带着大家一起剖析这篇文章吧!
文章根据现有 孟德尔随机化 存在的一些问题,提出多背景多变量综合孟德尔随机化,并与现有的孟德尔随机化作比较,应用建立的方法识别性状与疾病风险相关基因。文章就是建立模型+应用模型的简单思路,创新点在于采用多视角学习方法,对涉及多组织、分子性状和基因区域的疾病相关潜在指标进行集体建模。
由文章署名作者可以看出,本研究是跨学科领域的研究成果,由公共卫生与数学统计专业的研究人员共同合作而成。在这竞争激烈的研究领域内,跨学科合作,无疑是寻找创新突破点的好法子。 PS:如果小伙伴面对各种数据不知所措,建模分析不擅长,扫码找馆长就对了!馆长有专业的态度和丰富的生信分析经验,一条龙服务不在话下!等你来联系哦~

定制生信分析

云服务器租赁

加好友 备注“99” 领取试用


题目:用于识别人体组织风险基因的综合多背景孟德尔随机化方法
发表时间:2024年7月
公众号回复“666”二字可以领取本文献,文献编号:240816
研究背景
孟德尔随机化(MR)利用遗传变异作为工具变量(IV),研究暴露风险与复杂疾病结果之间的因果关系。随着全基因组关联分析(GWASs)的汇总统计数据的快速增长,双样本MR利用两组GWAS汇总统计数据作为输入,在评估复杂性状作为疾病暴露的因果效应方面取得了许多成功。最近,全转录组MR(TWMR)将基因表达视为风险暴露,并利用表达数量基因座(eQTL)和GWAS汇总统计来定位风险基因。与全转录组关联分析(TWASs)不同,TWMR侧重于因果评估。与共定位分析相比MR可灵活调整已知的混杂因素、考虑联合暴露、并在适当的假设条件下考虑未测量的混杂因素。虽然MR提供了有价值的见解,但传统的MR方法在TWMR分析定位风险基因的应用中也存在新的挑战。作为IV的eQTL数量有限,而顺式eQTL通常是相关的。此外,与疾病相关的eQTL往往具有组织特异性效应,而与疾病相关的组织类型往往是未知的。这可能导致GWAS和eQTL样本的IV效应不一致,从而违反核心IV假设。在多组织MR分析中,基因对疾病的因果效应往往是组织特异性和稀疏的,因此用有限数量的eQTL/IV来估计组织特异性的因果效应是具有挑战性的。故研究提出多背景多变量综合孟德尔随机化方法(mintMR)。
数据来源
数据库
详细信息
dbGaP
GTEx研究数据
GTEx Portal
mQTLs数据
eQTLGen Consortium
eQTLGen数据
eQTL Catalogue
ROSMAPeQTL数据
FUSION Skeletal Muscle Study
FUSION数据
https://cnsgenomics.com/data/SMR/#mQTLsummarydata
BSGS+LBC+mQTL
https://github.com/ylustat/MVMR-Analysis
mintMR论文的模拟和真实数据分析代码
https://github.com/ylustat/mintMR
mintMR的代码
研究思路
首先,建立mintMR模型。然后,与现有的单变量MR和MVMR作对比。最后,应用mintMR绘制了35种复杂性状和疾病的风险基因图谱,表明mintMR可以为疾病相关组织和潜在机制提供有价值的见解。
研究结果
1.模拟评估mintMR和其他MR的性能
现有大多MR都是为了分析复杂暴露因素而开发的。在TWMR中,作为基因表达IVs的cis-eQTLs数量通常比传统MR分析中的IVs数量少得多。模拟研究表明,有限的IVs数量给现有的MR方法带来了挑战。将mintMR(图1)与现有的多变量方法进行了比较,包括MVMR-IVW、MVMR-Egger、MVMR-Lasso、MVMR-Median、MVMR-Robust和MVcML。此外,研究还将带有跨组织IV的IVW和被多组织类型荟萃分析估计的IV效应(下文称为"IVW+metaIV")以及MR-Egger纳入比较。在这些方法中,IVW和MVMR-IVW不允许无效的IVs;MR-Egger和MVMR-Egger遵循工具变量强度独立于直接效应(InSIDE)假设;MVMR-Median假设IVs是有效的;MVMR-Lasso和MVMR-Robust对异常值具有稳健性(几乎没有无效IVs);MVcML假设有效的IV组成最大的组来提供因果参数估计,即多元条件成立。所有现有的UVMR和MVMR方法都是为使用复杂特性作为暴露而开发的。研究将其调整为TWMR,并将分子特征作为暴露因子进行比较。同时,将mintMR与其两种变体进行比较。结果显示,mintMR oracle (mintMR的一种变体,其中真正的潜在疾病相关性指标是已知的)提供了mintMR的最佳性能。然而,在实践中,如果没有疾病相关指标的进一步信息就无法实现。mintMR single-gene 在公式3中单独执行起始模型,无联合学习共享模式。将其与提出的mintMR比较,可知,联合学习多个基因区域、组织和分子暴露所得的低等级疾病相关性模式是有所改进的。研究应用了竞争性的MVMR方法,将模拟表达和DNA甲基化的多个组织作为暴露,并应用MR-Egger以单个基因表达组织作为暴露去评估其性能。研究比较了mintMR与竞争方法在p值为0.05时的I类错误率和功效。为了评估效应,研究还比较了所有方法的根均方误差(RMSEs)(见补充方法)。
图1:多背景多变量综合孟德尔随机化方法图解
对于每个模拟,从5种组织(Kl=5,l=1,2)中生成G=50对基因和CpGs(L=2),每种组织有500个样本。每对基因-CpG对生成了15个IV,并纳入至少在一个组织中p<0.01的IV。模拟了基因对结果的两种因果效应(表1)。mintMR single-gene 等方法都出现I型错误。当UHP效应增加时,大多数方法显示I型错误率增加。MVMR-Robust能控制I型错误率,但功效较低。当UHP效应解释的结果变异比例增加时,所有方法的功效都降低。另外,mintMR与mintMR oracle 能力相当。mintMR与mintMR oracle 和mintMR single-gene 等比较结果表明,跨多个基因的共享模式的多视图学习可以有效提高对潜在疾病相关概率的估计,从而提高对感兴趣因果效应的估计。当IV数量有限时,对因果效应的低秩模式的多视图学习提高了功效和精度。
表1:评估mintMR和竞争方法在IV数量有限时的性能的仿真结果
比较这些方法在不同场景下的效果(表2)。首先,将IVs的数量从15、25增加到100。当IV数量增加时,所有方法都能更好地控制I型错误率。当IV数量为100时,所有MVMR方法都能合理控制I型错误率。由于省略了相关暴露,单变量MR方法(IVW和Egger)的I型错误率仍然较大,且功效低。虽然现有的MR方法可以有效地处理复杂的性状暴露,但它们在TWMR分析中可能表现不佳,而mintMR则是专门为分析分子性状作为来自多种环境或组织的暴露而定制的。其次,改变QTL效应共享的概率。当概率降低时,eQTL/IV效应对环境或组织的特异性更强,IV效应的一致性降低。结果表明,当QTL和GWAS样本中QTL效应的一致性降低时,由于包含许多不一致的IVs,所有方法的功效都降低了。相反,当选择更多具有组织共享效应的QTL作为IV时,功效会提高。这种模拟强调了考虑多个组织并选择在多个组织中具有一致效果的QTL作为IV的重要性。最后,改变每次暴露的组织数量。当组织数量增加时,mintMR的功效随着IVs数量的提高而提高。
表2:评估mintMR和竞争方法在不同场景下性能的仿真结果
2.数据分析:通过mintMR识别性状和疾病风险相关基因
研究应用所提出的mintMR方法对35个复杂性状和疾病的风险基因进行了定位,其中包括14个免疫性状、6个代谢性状、2个神经系统疾病、2个心血管性状、7个精神疾病和性状以及4个其他性状。使用GWAS统计数据作为IV-结果的统计数据,使用多组织eQTL和mQTL汇总统计作为IV-暴露的统计数据。
图2A显示了在血组织中,基因表达对高血压的影响的p值的负对数底数为10的QQ图。考虑DNAm后,全基因组膨胀因子从1.88下降到1.25。在5q31-32区域,鉴定了4个基因(HSPA4[MIM:601113]、HARS2[MIM:600783]、KIAA0141[MIM:620664]和ARHGEF37[MIM:615741]),在不考虑DNAm的情况下均对高血压有显著影响(FDR<0.05)。在调整了最相关的cis-CpG位点后,只有HSPA4的表达仍显示出显著的影响(图2B)。HSPA4是热休克蛋白70家族的一个成员,已知它参与了高血压的发病机制。进一步进行共定位分析,只有HSPA4基因与高血压有较高的共定位概率(PP4=0.95)(图2C)。此外,检查了至少两个组织中FDR水平为0.05的所有显著高血压基因。在57个已鉴定的基因中,有49个进行了TWAS分析。其中,有15个基因(30.6%)在TWAS分析中也具有显著性(p<0.005),该比例远高于所有被检测的基因(14.2%)。此外,这49个基因中有6个(12.2%)得到了共定位分析的支持(PP4>0.7),远高于所有被检测的基因(2.3%)。
图2:基因表达对高血压的影响结果
利用Reactome和Gene Ontology数据库,对35种性状和疾病的重要基因以及与重要CpGs相关的近端基因进行了通路分析,结果见图3。结果表明,许多富集通路在相关性状之间是共享的,这表明存在共享机制。单核细胞、淋巴细胞和血小板与阿尔茨海默病有共同的富集途径,这表明炎症和免疫反应在阿尔茨海默病中发挥着重要作用。
图3:富集通路的热图
文章小结
文章提出了一种综合的多背景孟德尔随机化方法,以解决TWMR分析中的特有挑战。同时,应用mintMR绘制了35种复杂性状和疾病的风险基因图谱,证明mintMR可以为了解疾病相关组织和潜在机制提供有价值的见解。本研究思路简单,重点在分析模型的构建、算法的优化。0实验发高分文章! 如果你也想拥有纯生信发文的快乐,尽快扫码联系馆长吧!孟德尔随机化文章大爆发,如何出奇制胜?馆长这里有不少新鲜滚烫的发文技巧哦!早联系早发文~

馆长有话说







请到「今天看啥」查看全文