Basic Information
英文标题:Fine-mapping causal tissues and genes at disease-associated loci
文章作者:Benjamin J. Strober | Alkes L. Price
文章链接:https://www.nature.com/articles/s41588-024-01994-2
Abstract
Para_01
复杂疾病通常具有跨越多个组织的独特机制。我们提出了组织-基因精细映射(TGFM),它通过分析汇总统计和表达数量性状位点(eQTL)数据来推断每个基因-组织对后验包含概率(PIP),以介导疾病位点;TGFM还将后验包含概率分配给非介导变异。
TGFM 考虑了基因和组织之间的共调控,并且对顺式预测的表达模型中的不确定性进行建模,从而实现正确的校准。
我们将 TGFM 应用于来自 38 个基因型-组织表达(GTEx)组织的汇总统计和 eQTL 数据的 45 种 UK Biobank 疾病或特征。
TGFM 在每种疾病或特征中平均识别出 147 个 PIP > 0.5 的因果遗传元件,其中 11% 是基因-组织对。
由 TGFM 识别的因果基因-组织对反映了已知生物学(例如,TPO-甲状腺对于甲状腺功能减退症)和生物上合理的发现(例如,SLC20A2-主动脉动脉对于舒张压)。
将 TGFM 应用于来自外周血单核细胞(PBMC)中九种细胞类型的单细胞 eQTL 数据,并与 GTEx 组织联合分析,识别出了 30 个额外的因果基因-PBMC 细胞类型对。
Main
Para_01
遗传性疾病通常表现出高度的组织特异性,这促使人们努力阐明组织特异性的疾病机制。
先前的研究基于全基因组模式识别了与疾病相关的组织或细胞类型2,3,4,5,6,7,8,9,10,11,并深入剖析了有限数量的全基因组关联研究(GWAS)位点12,13,14,15,16。
然而,不同的GWAS位点可能由不同的组织介导,这促使人们进行全基因组范围的努力,以精细绘制出单个GWAS位点的因果组织和基因。
Para_02
现有的方法通过整合全基因组关联研究(GWAS)数据与表达数量性状位点(eQTLs)来确定疾病基因17,18,19,20,21,22。
然而,在分析的组织中,被疾病关联的基因可能并不是因果基因;非因果基因-组织对可以通过与因果基因-组织对(涉及不同的基因和/或组织)的相关性被关联11,21,23,24,25,26,或者通过非中介遗传变异(即,其因果效应不是由检测到的表达水平介导的变异)21,26,27。
基因精细映射方法23,26在单一组织内区分相关基因的因果效应方面已被证明是很有价值的,但它们尚未考虑因果基因-组织对。
Para_03
在这里,我们介绍了TGFM,一种推断每个基因-组织对参与介导给定位点疾病关联的PIP的方法;TGFM还将PIP分配给非介导的遗传变异。
TGFM将基因-组织对(使用顺式预测表达18,19)和非介导的遗传变异都建模为潜在的因果遗传元件,考虑了基因和组织之间顺式预测表达的相关性以及遗传变异之间的连锁不平衡,从而推广现有的精细映射方法23,26,28,29,30,31。
TGFM结合了全基因组估计的每个组织对疾病的贡献作为组织级别的先验,并采用采样方法来考虑顺式预测基因表达中的不确定性。
我们通过广泛的模拟验证了TGFM,包括与coloc17、FOCUS23和cTWAS26的比较;我们确定TGFM是唯一经过良好校准的方法。
我们将TGFM应用于使用来自38个GTEx组织和九个单细胞PBMC细胞类型的eQTL数据的45个UK Biobank(UKBB)特征。
Results
Overview of TGFM
TGFM概述
Para_01
TGFM估计每个遗传元素(基因-组织对或遗传变异)具有非零因果效应的PIPs,在一个模型中包括每个基因-组织对通过给定组织中给定基因的表达的顺式遗传成分介导的因果效应和每个遗传变异未介导的因果效应:
Para_02
Y 表示表型,g 索引基因,t 索引组织,X 是基因型矩阵,δgt 是每个变异在基因 g 和组织 t 中对基因表达的因果顺式 eQTL 效应大小向量(因此,Xδgt 是基因 g 和组织 t 中基因表达的顺式遗传成分),αgt 表示基因 g 和组织 t 中顺式遗传表达对疾病或性状的影响(标量),β 是每个遗传变异对疾病或性状的非介导因果效应向量,ε 表示环境噪声。
Para_03
TGFM通过将单效应之和(SuSiE)30,31精细映射方法推广到包括基因-组织对和遗传变异来估计每个遗传元件的PIP;基因-组织对是通过顺式预测表达18,19(使用外部eQTL数据集如GTEx24构建预测模型)包含在内的,这可以作为真实顺式遗传表达的近似值(方法)。
这种方法允许在一个给定的位点进行多个因果遗传元件的精细映射,通过考虑由于基因或组织之间的共调控导致的基因-组织对之间的相关性11,21,23,24,25,26、遗传变异之间的相关性29以及/或者基因-组织对与遗传变异之间的相关性21,26,27,推断边际GWAS34和边际转录组全关联研究18,19,21(TWAS;也就是说,单个基因-组织对的顺式预测表达与疾病之间的关联)背后的因果效应。
TGFM使用采样方法来考虑顺式预测表达中的不确定性,避免了由于顺式遗传表达的噪声估计而产生的假阳性。
Para_04
TGFM 包含四个步骤。首先,在第一步中,我们应用 SuSiE 对外部基因表达数据集中的每个基因-组织对进行 eQTL 精细映射(估计因果顺式 eQTL 效应大小的后验分布)。
其次,在第二步中,我们从第一步估计的因果顺式 eQTL 效应大小的后验分布中随机抽取每个基因-组织对的 100 个顺式预测的表达模型(方法)。
第三步中,我们应用 SuSiE 在目标数据集中执行疾病精细映射(估计每个遗传元件的 PIP),迭代遍历从第二步中每个基因-组织对的采样的顺式预测的表达模型。
第四步中,我们将第三步的结果在 100 次疾病精细映射运行中平均。
TGFM 使用了 SuSiE 算法的一个自定义实现,该实现提供了对 PIP 高效估计,跨越了 100 次仅在顺式预测的表达模型上不同的并行 SuSiE 运行(方法)。
TGFM 推断只需要汇总层面的全基因组关联研究 (GWAS) 数据,包括每个变异的 GWAS Z 分数以及感兴趣组织之间的遗传变异内的单样本连锁不平衡。
Para_05
TGFM通过为基因座中的每个遗传元件指定基于全基因组数据的组织特异性先验概率来增加精细映射的能力,类似于基于功能信息的变异水平精细映射;
TGFM为来自组织t的每个基因-组织对分配一个先验因果概率πt,为每个非介导遗传变异分配一个先验因果概率πnm。
我们分别在每种疾病或性状中估计πt和πnm,通过迭代运行TGFM(方法和补充说明中的计算高效近似)来实现,从平坦先验开始,在每次迭代中更新πt和πnm。
我们通过使用基因组自助法来考虑πt和πnm估计中的不确定性,随机抽取100组πt和πnm的值(每组对应步骤3中的100次疾病精细映射运行之一),并通过随机样本平均TGFM结果。
Para_06
我们应用TGFM对整个基因组中的2,682个重叠的3 Mb区域进行精细定位。
进一步的细节,包括从SuSiE因果顺式eQTL效应大小后验分布中抽取顺式预测的表达模型、提供高效估计PIP和估计组织特异性先验因果概率的SuSiE自定义实现,在方法部分中有详细介绍。
我们已发布了实施TGFM的开源软件(参见代码可用性),跨组织和基因的因果eQTL效应大小后验分布以及TGFM PIP(参见数据可用性)。
Simulations
模拟
Para_01
我们进行了模拟研究,以评估TGFM在识别GWAS关联背后的因果组织和基因方面的校准和功效。
我们使用来自无关英国血统样本的真实插补基因型32,模拟了两种数量性状表型(n = 100,000)和跨十个高度相关组织的基因表达表型(每对基因-组织组合);其中两个组织是该数量性状的因果因素;基因表达样本量从300到1,000不等,并且还包括样本量不相等的组织的模拟(标记为100-300);更多细节见方法部分。
Para_02
我们比较了TGFM与三种先前发表的方法:coloc17、FOCUS23和cTWAS26。
简而言之,coloc计算来自单一基因-组织对的GWAS疾病或特征与基因表达特征之间的共享因果变异的后验概率。
FOCUS和cTWAS为给定组织中的每个基因分配PIP,以具有对疾病非零因果效应,同时建模该组织内基因之间的相关性,但不建模跨组织的相关性,也不建模顺式预测表达的不确定性。
cTWAS还建模基因与非介导遗传变异之间的相关性。
FOCUS和cTWAS都可以自然地扩展到建模所有基因-组织对之间的相关性;我们将得到的方法分别称为FOCUS-TG和cTWAS-TG。
Para_03
我们首先评估了TGFM、coloc、FOCUS、FOCUS-TG、cTWAS和cTWAS-TG对精细映射因果基因-组织对的校准情况。
校准是通过经验错误发现率(FDR)进行评估的,该比率估计为给定后验纳入概率(PIP)阈值以上的所有基因-组织对中的假阳性基因-组织对的比例(见方法部分)。
无论等效数量(eQTL)样本大小如何以及PIP阈值如何,TGFM产生的后验纳入概率(PIPs)都是良好的校准。
然而,在较小的eQTL样本量下,假阳性率略有增加。
相比之下,所有其他方法在校准方面表现较差,即使在较大的eQTL样本量下也是如此。
我们认为TGFM的优越校准归因于它联合建模基因-组织对和非介导变异的能力,以及一种考虑遗传预测基因表达不确定性(见下面的次级分析)的抽样程序。
Fig. 1: Calibration and power of tissue–gene fine-mapping methods in simulations.
a、b,当后验概率(PIP)为0.5时,各种精细映射方法(见图例)在不同eQTL样本大小(x轴)下的平均基因-组织对精细映射的错误发现率(FDR)(参见a)以及当后验概率(PIP)为0.9时的FDR(参见b)。虚线水平线表示1-PIP阈值(参见正文)。数值结果报告于补充表1。
c、d,当后验概率(PIP)为0.5时,各种精细映射方法(见图例)在不同eQTL样本大小(x轴)下的平均基因-组织对精细映射能力(参见c)以及当后验概率(PIP)为0.9时的映射能力(参见d)。误差线基于样本比例的标准误的95%置信区间。数值结果报告于补充表2。
Para_04
我们接下来评估了TGFM、coloc、FOCUS、FOCUSTG、cTWAS和cTWASTG识别因果基因-组织对的能力。结果见图1c、d和补充表2。
TGFM在较大的eQTL样本量下具有适度的检测因果基因-组织对的能力。
其他方法(coloc、FOCUS、FOCUSTG、cTWAS和cTWASTG)比TGFM具有更高的检测能力,但因它们的校准较差(图1a、b),这在很大程度上变得无关紧要。
在相同的FDR水平下,TGFM的检测能力高于所有其他方法(扩展数据图1和补充图2)。
Para_05
我们比较了TGFM在精细映射因果基因-组织对、基因或非介导遗传变异方面的校准和功效。
通过聚合对应于该基因的所有基因-组织对的基因-组织后验纳入概率(PIP),计算了基因PIPs(方法)。
TGFM产生的基因水平和变异水平后验纳入概率是校准良好的。
相比之下,基因水平的coloc、FOCUS、FOCUS-TG、cTWAS和cTWAS-TG后验纳入概率校准不良(补充图4)。
TGFM在精细映射因果基因方面比在精细映射因果基因-组织对方面具有更高的功效,这符合预期,因为精细映射因果基因是一个更简单的问题。
此外,变异水平的精细映射功效不受表达数量性状位点(eQTL)样本大小的影响,这也符合预期。
在其他后验纳入概率阈值下,结果相似(补充图5和6)。
Fig. 2: Calibration and power of fine-mapping different classes of genetic elements with TGFM in simulations.
a, b, 在 PIP = 0.5 (a) 和 PIP = 0.9 (b) 条件下,使用 TGFM 对不同类别的遗传元件进行平均精细映射的 FDR(错误发现率)跨 100 次模拟,结果随 eQTL 样本量的变化(x 轴)。虚线水平线表示 1 - PIP 阈值(参见正文)。数值结果报告在补充表 3 中。
c, d, 在 PIP = 0.5 (c) 和 PIP = 0.9 (d) 条件下,使用 TGFM 对不同类别的遗传元件进行平均精细映射的能力跨 100 次模拟,结果随 eQTL 样本量的变化(x 轴)。误差线基于样本比例的标准误差的 95% 置信区间。数值结果报告在补充表 4 中。
Para_06
我们进行了三项二次分析。首先,我们考虑了一个模拟,其中eQTL样本量较低:所有组织均为100。TGFM变得略有误校;然而,它的校准仍然可以接受,并明显优于所有其他方法(补充图7和8)。其次,我们使用统一先验(所有组织相同的πnm和πt)运行了TGFM,而不是默认的组织特异性先验。具有统一先验的TGFM保持良好的校准(扩展数据图2a,b),但显著降低了功率(扩展数据图2c,d)。第三,我们使用统一先验和单一顺式预测表达模型(基于后验平均因果顺式eQTL效应大小)运行了TGFM,而不是对采样的顺式预测表达模型的结果进行平均。没有采样顺式预测表达模型的TGFM校准较差,尤其是在较小的eQTL样本量下(扩展数据图2a,b)。其他二次分析报告于补充说明和补充图9-28。
Tissue–gene fine-mapping of 45 diseases and complex traits
45种疾病和复杂性状的组织-基因精细映射
Para_01
我们应用TGFM对来自UKBB的45种疾病和复杂特征(平均n=316,000;之前已使用变异水平精细映射分析过36;参见方法和补充表5)进行了组织和基因的精细定位,使用了来自47个GTEx组织的基因表达数据24,这些数据被聚合成38个元组织11(平均n=259;补充说明和补充表6),以尽量减少不同组织之间的eQTL样本大小差异;为了简化,我们将这些称为‘组织’。
对于每一种疾病或特征,我们应用TGFM到2,682个重叠的3Mb位点36,覆盖了119,270个基因-组织对(补充表6)和10,545,304个次要等位基因频率(MAF)≥0.005的遗传变异。
我们已经公开发布了所有基因-组织对、基因和非介导变异的后验概率(PIPs),针对每一种疾病和/或特征(参见数据可用性)。
Para_02
结果总结在图3(16个独立性状36)和补充图29(所有45个性状)以及补充表8中。
在所有45个性状中,TGFM确定了711个基因-组织-性状三元组、2,800个基因-性状对(聚合组织的基因-组织后验概率)和5,893个非中介遗传变异-性状对(后验概率大于0.5)(43个基因-组织-性状三元组、382个基因-性状对和2,675个非中介遗传变异-性状对后验概率大于0.9)。
在711个后验概率大于0.5的基因-组织-性状三元组中,180个(占25%)具有大于4.2×10^-7的TWAS P值(基于119,270个基因-组织对的邦弗朗尼显著性阈值37),136个(占19%)在同一精细定位区域内没有附近的变异体,且GWAS P值小于等于5×10^-8。
在110,828个TWAS P值小于等于4.2×10^-7的基因-组织-性状三元组中,只有531个(占0.5%)具有TGFM后验概率大于0.5。
当计算后验概率大于0.5的遗传元件时,在16个独立性状中,基因-组织对的比例等于8.1%(271个基因-组织对和3,074个非中介遗传变异),或者在汇总16个独立性状的后验概率时为10.1%,与之前的估计一致26,27。
Fig. 3: Summary results of fine-mapping genetic elements with TGFM for 16 independent UKBB diseases and traits.
我们报告了使用TGFM(y轴;平方根刻度)精细映射的基因-组织对数(a)、基因数(b)和(非介导的)变异数(c),跨越16个独立的UKBB性状(x轴)在各种从0.2到1.0的PIPs阈值下。
水平黑色线条表示在PIPs=0.5时精细映射的遗传元件数量。
FEV1:FVC是1秒内用力呼气量与用力肺活量的比率;血小板体积是指平均血小板体积;舒张压是舒张血压;网织红细胞计数是高散射网织红细胞计数;Corp. 血红蛋白是指平均红细胞血红蛋白;FVC是指用力肺活量。
所有45个UKBB疾病和性状的结果如补充图29所示,数值结果见补充表8。
Para_03
对于每个特征,我们确定了最常见的涉及组织,通过计算基因-组织对PIP > 0.5的数量来计算每个组织中的精细映射基因-组织对的比例。
结果如图4a(14个代表性特征)和补充图30(全部45个特征)以及补充表9所示。
由精细映射基因-组织对频繁涉及的组织-特征对集中在预期的特征-关键组织中(见下文)。
此外,我们观察到一些情况,其中TGFM无法在一组高度相关的组织内区分出因果组织(补充说明,补充图32和补充表10)。
Fig. 4: Properties of fine-mapped tissues and genes.
a. 每个组织(x轴)中精细映射的基因-组织对的比例(y轴),针对14个代表性性状(y轴)。每个性状的比例是通过计算在每个组织中TGFM PIP > 0.5的基因-组织对的数量,并在组织间标准化计数得到的。只有当其比例对于至少一个14个代表性性状大于0.2时,才会显示组织。星号表示统计显著性(FDR ≤ 0.05通过TGFM组织特异性先验;见方法)的每个组织-性状对。所有剩余的性状和组织的结果报告在补充图30中,数值结果报告在补充表9中。选择了14个代表性性状,包括16个独立性状中的12个(图3),这些性状具有许多高PIP基因-组织对,以及两个额外的有趣性状(均为自身免疫性疾病和维生素D水平)。
b. 使用染色质数据进行S-LDSC分析时,分层组织-性状对被报告为具有统计显著性的比例(y轴),作为S-LDSC显著性阈值(x轴)的函数,适用于所有45个性状分析;组织-性状对根据显著性(FDR ≤ 0.05或FDR > 0.05)通过TGFM组织特异性先验进行分层。在替代的TGFM组织特异性先验显著性阈值下的结果报告在补充图33中,数值结果报告在补充表12中。
c. 上面板显示了根据TGFM(基因)PIP(x轴)分层的基因的平均PoPS评分(y轴)。这些平均值是在图3中列出的16个独立性状的基因上计算的,因为PoPS评分和TGFM基因PIPs都是特定于性状的。误差线表示基于样本均值标准误差的95%置信区间。下面板显示了根据TGFM(基因)PIP(x轴)分层的基因的PoPS评分分布(y轴)。这些分布是在图3中列出的16个独立性状的基因上计算的,因为PoPS评分和TGFM基因PIPs都是特定于性状的。共有83,821个基因-性状对:26,797个在TGFM箱体0 ≤ PIP < 0.01,54,328个在TGFM箱体0.01 ≤ PIP < 0.25,1,879个在TGFM箱体0.25 ≤ PIP < 0.5,442个在TGFM箱体0.5 ≤ PIP < 0.7,250个在TGFM箱体0.7 ≤ PIP < 0.9,125个在TGFM箱体0.9 ≤ PIP < 1。数值结果报告在补充表13中。
d. 在区分已知低密度脂蛋白(LDL)胆固醇基因的银标基因组(如引用26中图4所示)与附近基因时,当TGFM(基因)PIP用于LDL胆固醇大于或等于一系列PIP阈值时的经验FDR(y轴)。浅绿色阴影表示95%置信区间。数值结果报告在补充表15中。
Para_04
我们分别通过将基因组-bootstrap 应用于 TGFM 组织特异性先验来评估涉及的组织-特征对的统计显著性(见方法)。结果报告在图 4a(14 个代表性特征)、补充图 30(所有 45 个特征)和补充表 9 中。
这种方法确定了 23 个 FDR ≤ 0.05 的组织-特征对(64 个 FDR ≤ 0.2 的组织-特征对)。尽管能力有限,TGFM 组织特异性先验识别了六个特征,这些特征具有超过一个显著相关的组织(FDR ≤ 0.05;17 个特征在 FDR ≤ 0.2 下)。
Para_05
我们强调了四种疾病或特征,它们的TGFM提示组织重现已知生物学或提出合理的生物学假设。
首先,60%的总胆固醇精细映射基因-组织对涉及肝脏组织(组织特异性先验的FDR≤0.05)。
其次,36%和32%的舒张压精细映射基因-组织对分别涉及胫骨动脉和主动脉动脉组织(两种组织的FDR≤0.2)。
第三,50%和30%的所有自身免疫疾病精细映射基因-组织对分别涉及脾脏和淋巴细胞(两种组织的FDR>0.2)。
第四,33%,33%和33%的湿疹精细映射基因-组织对分别涉及皮肤(暴露于阳光下),淋巴细胞和食道粘膜(所有组织的FDR>0.2)。
Para_06
我们评估了那些通过组织特异性先验被识别为统计显著性的组织-性状对是否也在使用匹配细胞类型组的染色质数据进行的分层连锁不平衡评分回归(S-LDSC)分析中被识别为统计显著性(参见补充说明和补充表11)。结果报告在图4b和补充表12中。
值得注意的是,94%的由TGFM组织特异性先验优先化的组织-性状对(在错误发现率<0.05下有16个组织-性状对)在使用染色质数据的S-LDSC分析中具有名义上的统计显著性(P<0.05)。在其他错误发现率阈值下结果相似(补充图33)。
Validation of fine-mapped gene–tissue pairs
精细映射基因-组织对的验证
Para_01
我们进行了四项实验以验证由TGFM优先考虑的基因-组织对,详细内容见补充说明。首先,我们评估了由TGFM优先考虑的基因与独立基因集或评分优先考虑的基因之间的重叠。
具有高TGFM(基因)PIP的基因更有可能被PoPS46优先考虑,PoPS46是一种从基因水平特征优先考虑性状相关基因的基因评分(图4c和补充表13),并且在已知富集或耗尽疾病遗传度的非疾病特异性基因集中显著富集或耗尽(例如,High-pLI基因47)(扩展数据图3和补充表14)。
Para_02
其次,我们使用已知的69个LDL胆固醇基因的银标基因组对TGFM的校准进行了实证评估。
TGFM(基因)PIP与银标基因组保持了良好的校准关系(图4d和补充表15),并且比cTWAS PIP更精确地校准(扩展数据图4)。
当我们使用相同的银标基因组结合肝脏组织来评估TGFM(基因-组织)PIP的校准时,也得到了类似的结果(补充图34)。
Para_03
第三,我们评估了TGFM在缺失因果组织的情况下表现如何。我们重新运行了18种代表性疾病或特征的TGFM,同时移除(消融)每个特征中最重要的组织。我们考虑了115个基因-组织对,在初级分析中TGFM将这些组织优先级设置为高于0.5(PIP > 0.5)。总的来说,115个位点中有98个没有被TGFM优先级设置为高于0.5(PIP > 0.5)的基因-组织对,而115个位点中有8个只有由相同基因和最佳替代组织组成的基因-组织对被TGFM优先级设置为高于0.5(见补充说明)(图5a、补充表16以及补充图35和36)。
Fig. 5: Robustness of TGFM results in analyses of alternative eQTL datasets.
组织消融分析的115个基因-组织对的结果,这18个代表性特征是通过TGFM(PIP > 0.5)优先选择的主要分析的结果。
我们报告了组织消融分析中没有被TGFM优先选择的基因-组织对(PIP > 0.5)的位点数量;
TGFM优先选择的(PIP > 0.5)与相同基因和最佳替代组织对应的基因-组织对(参见方法部分);
TGFM优先选择的(PIP > 0.5)与相同基因和非替代组织对应的基因-组织对;
TGFM优先选择的(PIP > 0.5)与不同基因对应的基因-组织对。
替代PIP阈值的结果报告在补充图35中,数值结果报告在补充表16中。
b, 替代GTEx全血(n = 320)使用伪批量PBMC(n = 113)的结果,用于18个代表性特征中的62个基因-特征对,这些特征在主要分析中通过TGFM针对GTEx全血进行了精细映射(PIP > 0.5)。
红色垂直线表示PBMC中的平均PIP,直方图总结了每个GTEx组织(不包括全血)的平均PIP。
18个代表性特征包括16个独立特征(图3)和另外两个有趣的特征(所有自身免疫和维生素D水平)。
Para_04
第四,我们使用独立的eQTL数据评估了TGFM结果的稳健性。
具体而言,我们使用伪批量PBMC eQTL数据代替GTEx全血数据重新运行了TGFM,涉及18种代表性疾病或特征(见补充说明)。
我们在主要分析中考虑了TGFM对GTEx全血精确定位的62个基因-特征对(PIP > 0.5)。
PBMC的平均PIP为0.29,在PBMC基因中远大于其他任何组织(平均PIP为0.00-0.15)(图5b、补充表17和补充图37)。
TGFM pinpoints disease genes and tissues of action
TGFM 确定疾病基因和作用组织
Para_01
我们强调了由TGFM精细映射的六个基因-组织-特征三元组的例子(图6和补充表18)。
简而言之,两个例子重现了已知的生物学知识,包括甲状腺中的TPO(甲状腺过氧化物酶)与甲状腺功能减退症(图6a;基因-组织PIP,0.88)48,49以及淋巴细胞中的OVOL1与湿疹(图6b;基因-组织PIP,0.75)50,51,52,53。
值得注意的是,在距离OVOL1 1Mb范围内的28对基因-组织中有4对对应于除淋巴细胞外的其他组织,并且具有显著的TWAS P值(P ≤ 4.2 × 10−7),但未被TGFM精细映射(所有PIP ≤ 0.01),这突显了联合精细映射基因-组织对的好处。
两个例子涉及通过两种不同的组织精细映射维生素D水平的基因-组织对,这与已知的生物学知识一致,包括皮肤(暴露于阳光下)中的PADI1(图6c;基因-组织PIP,0.64)54,55,56,57以及肝脏中的LIPC(图6d;基因-组织PIP,0.83)57,58。
这展示了TGFM相对于分别使用基因水平精细映射方法来识别因果基因23和使用方法来识别特征关键组织的方法来识别因果组织的优势。
最后,两个例子提出了生物上合理的机制,包括主动脉动脉中的SLC20A2与收缩压(图6e;基因-组织PIP,0.91)59,60,61以及小脑中的NMT1与初潮年龄(图6f;基因-组织PIP,0.53)62,63。
每个例子的更多细节见补充说明,其他例子报告在补充说明和补充图38和39中。
Fig. 6: Examples of fine-mapped gene–tissue–disease triplets identified by TGFM.
我们报告了六个示例位点,在这些位点上TGFM精细映射了一个基因-组织对(PIP > 0.5):甲状腺中的TPO用于甲状腺功能减退症(a),淋巴细胞中的OVOL1用于异位性皮炎(b),皮肤(日晒)中的PADI1用于维生素D水平(c),肝脏中的LIPC用于维生素D水平(d),主动脉动脉中的SLC20A2用于收缩压(e)以及脑小脑中的NMT1用于初潮年龄(f)。
在每个示例中,我们报告了非中介变异(蓝圈)和基因-组织对(红三角)的边际GWAS和TWAS关联−log10 P值(y轴)。
通过取每个基因-组织对的100组采样顺式预测表达模型中的平均−log10 TWAS P值来计算边际TWAS关联−log10 P值。
有关GWAS关联统计量如何计算的描述,请参见方法部分。
每个基因-组织对(x轴)的基因组位置基于该基因的转录起始位点(TSS)。
每个变异和基因-组织对的颜色阴影由其TGFM PIP决定。
任何TGFM PIP > 0.5的遗传元件大小都会增大。
虚线蓝色和红色水平线分别代表GWAS显著性阈值(5 × 10−8)和TWAS显著性阈值(4.2 × 10−7)。
Analysis of fine-grained cell types in single-cell eQTL data
单细胞eQTL数据中精细细胞类型的分析
Para_01
人们普遍假设,在精细细胞类型或环境中eQTL可能有助于解决由大量组织中的eQTL解释的有限疾病遗传率比例。
因此,我们应用TGFM来精细定位来自UKBB的45种疾病的基因和精细细胞类型(上述相同疾病),使用跨越九种精细的PBMC细胞类型的单细胞eQTL数据集(平均n = 112;补充说明和补充表19)以及上述分析的38个GTEx组织。
对于每种疾病或特征,我们应用TGFM到2,682个重叠的3 Mb位点,涵盖1,851个基因-PBMC细胞类型对(补充表19),119,270个基因-组织对(GTEx组织;补充表6)以及10,545,304个MAF≥0.005的遗传变异。
我们已经公开发布了所有基因-PBMC细胞类型对、基因-组织对、基因和非介导变异的后验概率(PIPs)用于每种疾病或特征(参见数据可用性)。
Para_02
结果报告在图7a、b(18个代表性特征)和补充图40(全部45个特征)以及补充表20中。
在全部45个特征中,TGFM在PIP > 0.5时确定了30个基因-PBMC细胞类型-特征三元组;在PIP > 0.9时,TGFM没有检测到任何基因-PBMC细胞类型-特征三元组,这可能是因为单细胞eQTL样本量有限。
在PIP > 0.5的30个基因-PBMC细胞类型-特征三元组中,有25个涉及一个没有明确精细映射的基因-组织对的特征位点(与图3至图6对应的仅GTEx分析中没有TGFM PIP > 0.5)。
对于18个代表性特征,TGFM在PIP > 0.5时确定了12个基因-PBMC细胞类型对,用于自身免疫疾病和血液细胞特征(图7a),而相比之下,在非血液相关特征中只有5个基因-PBMC细胞类型对(图7b;包括两个用于初潮年龄的基因-PBMC细胞类型对,我们保守地将其标记为非血液相关,尽管有报道称它部分是免疫介导的65,66)。
Fig. 7: Summary results of fine-mapping gene–PBMC cell type pairs with TGFM for 18 representative UKBB diseases and traits.
基因-PBMC细胞类型对使用TGFM(y轴;平方根比例)在18个代表性的UKBB性状(x轴)上进行精细映射的数量(颜色条范围从0.2到1.0),区分出自身免疫性疾病和血液细胞性状(a)以及非血液相关性状(b)。
水平黑色线表示在PIP = 0.5时精细映射的基因-PBMC细胞类型对数量。
18个代表性的性状(与图5相同)包括16个独立的性状(图3)和两个额外的有趣性状(所有自体免疫性和维生素D水平)。
所有45个UKBB疾病和性状的结果报告在补充图40中。
c-e,在每种九种PBMC细胞类型(x轴)上使用TGFM(y轴;平方根比例)精细映射的基因-PBMC细胞类型对数量(颜色条范围从0.2到1.0)分别用于单核细胞计数(c)、淋巴细胞计数(d)和所有自体免疫性疾病(e)。
ncM,非经典单核细胞;cM,经典单核细胞;NK,自然杀伤细胞;cDC,常规树突状细胞;pDC,浆细胞样树突状细胞。
水平黑色线表示在PIP = 0.5时精细映射的基因-PBMC细胞类型对数量。
星号表示统计显著性(通过TGFM组织特异性先验FDR ≤ 0.05;见方法)每个PBMC细胞类型-性状对。
所有45个UKBB疾病和性状的结果报告在补充图41中。
Para_03
对于每个特征,我们确定了最常见的被牵涉的PBMC细胞类型,通过计算PIP> 0.5的基因-PBMC细胞类型对在每个PBMC细胞类型中的比例来完成。
结果报告在图7c-e(三个代表性血液相关特征),补充图41(所有45个特征)和补充表20中。
在PIP> 0.5的精细映射基因-PBMC细胞类型对集中在预期的特征-关键PBMC细胞类型;例如,单核细胞计数在非经典单核细胞中的比例为62.5%,在经典单核细胞中的比例为37.5%,淋巴细胞计数在CD4+ T细胞中的比例为100%,所有自身免疫性疾病在CD8+ T细胞中的比例为100%(参见补充说明)。
非经典单核细胞-单核细胞计数是唯一在FDR≤0.05下通过TGFM组织特异性先验显著的PBMC细胞类型-特征对(图7c-e,补充图41和补充表21),这一发现既符合预期,也得到了先前工作的证实。
Para_04
我们强调了由TGFM细映的四个基因-PBMC细胞类型-特征三元组的例子(图8和补充表22)。简而言之,其中一个例子重现了已知生物学,即在CD8+T细胞中的CTLA4(细胞毒性T淋巴细胞相关蛋白4)与所有自身免疫性疾病相关(图8c;基因-PBMC细胞类型PIP,0.84)69,70,71,72。
还有三个例子提名了生物上合理的机制(图8a,c,d)。值得注意的是,在图3仅基于GTEx分析的任何组织中,这四个例子均未被优先考虑(PIP > 0.5),这突显了在精细的PBMC细胞类型中建模基因表达的优势。
Discussion
Para_01
我们开发了一种方法TGFM,该方法联合精细映射疾病相关位点上的因果基因-组织对和非中介遗传变异。
我们将TGFM应用于45种UKBB疾病和特征,并使用38种GTEx组织,识别出许多因果基因-组织对(PIP > 0.5),这些对集中在已知与疾病相关的组织中,并且在已知与疾病相关的基因中显著富集。
通过TGFM识别的因果基因-组织对重现了已知生物学,但也包括生物上合理的发现。
我们进一步将TGFM应用于来自PBMC中九种细胞类型的单细胞eQTL数据(与GTEx组织联合分析),并识别出更多的因果基因-PBMC细胞类型对(PIP > 0.5),主要针对自体免疫疾病和血液细胞特征。
Para_02
TGFM 相较于以前的方法在精细映射因果基因方面具有三个优势。
首先,TGFM 识别因果基因-组织对,而不仅仅是因果基因。
其次,TGFM 联合建模每个基因-组织对以及非介导变异对疾病的贡献,从而将因果基因-组织对与标记基因-组织对和标记非介导遗传变异区分开来。
第三,TGFM 使用一种采样程序来考虑顺式预测表达模型中的不确定性。
我们的模拟显示,TGFM 能够准确校准精细映射的基因-组织对,而之前的诸如 coloc17、FOCUS23、cTWAS26、JLIM73 和 SMR74 等方法则不具备这些优势。
我们在补充说明中进一步讨论了 TGFM 相对于现有方法的优势。
Para_03
首先,TGFM 在未检测到因果遗传元件(类似于其他精细映射方法29,30,36,75)的情况下可能容易产生假阳性结果,包括未检测到组织的特定情况(类似于先前识别疾病-因果组织的研究5,7,8,11)。
如果未检测到因果基因-组织对,TGFM 可能会优先选择一个相关检测过的基因-组织对或一个相关的非中介遗传变异。
实际上,我们发现当因果组织缺失时,TGFM 往往倾向于优先选择没有结果或者优先选择最佳替代组织中的基因而不是无关组织中的基因(图5a)。
我们预计随着新兴的eQTL数据集越来越多地捕获不同组织、细胞类型和细胞环境(76),这一局限性将随着时间的推移而得到缓解。
其次,TGFM 仅在一定程度上能够检测出因果基因-组织对,特别是在较低的eQTL样本量时(图1)。
特别是,一种疾病-因果组织或细胞类型可能因为TGFM在低eQTL样本量下的有限能力而只有零个或少量自信地被精细映射的基因-组织对。
我们预计随着eQTL数据集的规模增加(77),这一局限性将随着时间的推移而得到缓解。
更多局限性和现有方法的进一步讨论包含在补充说明和补充图42中。
尽管存在这些局限性,TGFM 仍然是用于精细映射疾病关联位点的因果组织和基因的强大且稳健的方法。
Methods
Para_01
我们的研究遵守了所有相关的伦理规定;无需特别批准。
TGFM model overview
TGFM模型概述
Para_01
TGFM79 估计每个遗传元件(基因-组织对或遗传变异)具有非零因果效应的概率,该模型包括每个基因-组织对通过给定基因在特定组织中的表达的顺式遗传成分的介导因果效应和每个遗传变异的非介导因果效应:
Para_02
Y 表示全基因组关联研究个体的表型向量,g 索引基因,t 索引组织,X 是基因型矩阵,Wgt 是基因 g 和组织 t 中基因表达的顺式遗传成分的向量,跨越全基因组关联研究个体,αgt 表示基因 g 和组织 t 中顺式遗传表达对特征的影响(标量),β 表示每个遗传变异对特征的非介导因果效应的向量,ε 表示噪声。
我们假设特征 Y、每个基因 g 和组织 t 中基因表达的顺式遗传成分 Wgt 以及每个变异的基因型向量(X 的每一列)标准化为均值 0 和方差 1。
我们将基因表达的顺式遗传成分建模为变异级效应的线性组合:
Para_03
其中 δgt 表示每个变异体在基因 g 和组织 t 中对基因表达的因果顺式 eQTL 效应大小向量。
我们强调,我们将表型 Y 建模为每个基因和组织中未观察到的真实顺式遗传成分 Wgt(它是未观察到的真实因果 eQTL 效应大小 δgt 的确定性函数)的线性组合。
基因表达的预测顺式遗传成分 (\hat{W"}
{gt"})=(X\hat{\delta"}
{gt"}) 可以根据预测的因果 eQTL 效应大小 (\hat{\delta"}_{gt"}) 进行估计(带有不确定性),从特定组织 t 中有限样本量的 eQTL 数据集中得出,并提供真实未观察到的基因表达顺式遗传成分 Wgt 的噪声估计。
Para_04
TGFM 在疾病(介导和非介导)效应大小向量上放置了 SuSiE30,31 细致映射先验分布:
Para_05
其中 α 表示每个基因-组织对的遗传基因表达对特征的中介因果效应向量,β 表示每个遗传变异对特征的非中介因果效应向量,[α, β] 表示中介和非中介遗传效应的连接向量,l 索引精细映射组件,γl 表示一个分类随机变量,指示疾病成分 l 来自哪个遗传元素,π 表示每个遗传元素为因果的先验概率的单纯形向量,dl 表示指定成分 l 的因果效应大小的高斯随机变量,σl² 表示 dl 的先验方差。 错误!!! - 待补充
Para_07
其中 j 对应基因元件,l 对应组分,PIPj 表示基因元件 j 的 PIP,(\hat{{\rm{\gamma }}_{{lj"}}}) 表示基因元件 j 上 γl 后验分布的期望值。
Overview of TGFM inference
TGFM推理概述
Para_01
TGFM 推理包括四个步骤。在步骤 1 中,我们应用 SuSiE 对外部基因表达数据集中的每个基因-组织对进行 eQTL 细胞图谱分析(估计每个基因-组织对的因果顺式-eQTL 效应大小的后验分布)。
在步骤 2 中,我们从步骤 1 中估计的因果顺式-eQTL 效应大小的后验分布中随机抽取每个基因-组织对的 100 个顺式预测表达模型。
在步骤 3 中,我们应用 SuSiE 对目标数据集进行疾病细粒度映射(估计每个遗传元件的 PIP),迭代使用步骤 2 中每个基因-组织对的抽样顺式预测表达模型,共进行 100 次。
在步骤 4 中,我们对步骤 3 的结果进行平均,跨越这 100 次疾病细粒度映射运行。
TGFM Step 1: estimate causal eQTL effect size distributions
TGFM 第一步:估算因果eQTL效应大小分布
Para_01
TGFM 推理依赖于定义每个基因-组织对因果 eQTL 效应的概率分布。
这些因果 eQTL 效应大小分布通过将 SuSiE30 应用于 eQTL 数据来估计;SuSiE 从 eQTL 数据推断给定基因-组织对的因果 eQTL 效应大小的以下后验分布: 错误!!! - 待补充