专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  专家点评Cell Research | ... ·  3 天前  
生物学霸  ·  222 人,西湖大学公布 2025 ... ·  4 天前  
生物制品圈  ·  细胞培养基为什么要现配现用? ·  6 天前  
生信菜鸟团  ·  泛读合集 | 2024 全年 | ... ·  6 天前  
BioArt  ·  Nature | ... ·  6 天前  
51好读  ›  专栏  ›  生信菜鸟团

NatMed | 有源代码 | 多基因风险评分识别出不同类型的脂肪肝疾病

生信菜鸟团  · 公众号  · 生物  · 2025-01-09 13:29

正文

Basic Information

  • 英文标题:Partitioned polygenic risk scores identify distinct types of metabolic dysfunction-associated steatotic liver disease
  • 中文标题:分隔的多基因风险评分识别出与代谢功能障碍相关的不同类型的脂肪肝疾病
  • 发表日期:09 December 2024
  • 文章类型:Article
  • 所属期刊:Nature Medicine
  • 文章作者:Oveis Jamialahmadi | Stefano Romeo
  • 文章链接:https://www.nature.com/articles/s41591-024-03284-0

Abstract

Para_01
  1. 代谢功能障碍相关性脂肪肝病(MASLD)的特点是肝脏中脂质,主要是甘油三酯过多,以及代谢综合征的成分,可能导致肝硬化和肝癌。
  2. 虽然有确凿的流行病学证据表明 MASLD 与心血管代谢疾病聚集,但几个主要的遗传风险因素不会增加心血管疾病的风险,这表明 MASLD 与心血管代谢紊乱之间没有因果关系。
  3. 在这项工作中,我们利用内脏脂肪测量识别出 27 个先前未知的与 MASLD 相关的遗传位点(n = 36,394),其中六个在四个独立队列中得到验证(n = 3,903)。
  4. 接下来,我们根据肝脏中脂蛋白滞留的存在生成了两个分隔多基因风险评分。
  5. 这两个多基因风险评分表明至少存在两种不同类型的 MASLD,一种局限于肝脏,导致更严重的肝病,另一种是全身性的,导致更高的心血管代谢疾病风险。
  6. 这些发现揭示了 MASLD 的异质性,并有可能改善临床轨迹的预测,指导精准医疗方法。

Main

Para_01
  1. 随着肥胖症的流行,脂肪肝疾病(SLD)已成为全球日益严重的负担。
  2. SLD包括一系列特征为肝细胞内脂滴中储存过多脂质(主要是甘油三酯)的情况,可能进展为炎症、纤维化,最终导致肝硬化和肝癌。
  3. SLD是一种异质性疾病,与代谢紊乱共存,包括内脏肥胖、胰岛素抵抗和高血压,即代谢功能障碍相关性SLD(或MASLD)。
  4. 这种代谢紊乱最终增加了心血管事件的风险,包括心力衰竭,并且还增加了肾脏疾病的风险。
  5. 事实上,心血管疾病是MASLD患者中最常见的死亡原因,而肝病相关的死亡则较少见;然而,临床上常见一些个体尽管代谢紊乱相似甚至较轻,却发展出快速进展的肝病。
Para_02
  1. MASLD具有很强的遗传成分;多种变异通过损害肝细胞脂滴重塑和脂蛋白分泌主要增加肝脏脂质,也导致MASLD的进展;然而,与流行病学证据相反,这些变异对心血管疾病具有保护作用,并且与高血压或心力衰竭无关联,表明MASLD与心脏代谢紊乱之间没有因果关系。
Para_03
  1. 在过去15年中,全基因组关联研究(GWAS)确定了几个与慢性肝病或肝脏甘油三酯含量增加相关的遗传位点。
  2. 脂肪过多放大了一小部分变异的影响,这可能是因为增加了异位内脏脂肪。
  3. 为了提高遗传研究的准确性,并识别主要影响肝脏、独立于脂肪量的遗传变异,GWAS分析通常会根据体重指数(BMI)进行调整;然而,脂肪量的人体测量(BMI)和体脂分布(腰围)未能准确量化与胰岛素抵抗和代谢改变最密切相关的内脏脂肪。
  4. 因此,标准的BMI调整可能无法捕捉和消除脂肪对肝脂的全部影响,限制了GWAS的准确性。
  5. 相比之下,成像(例如,内脏脂肪体积)和生物电阻抗分析(例如,全身脂肪质量)是更准确的身体成分测量方法,也是MASLD的更好预测指标。
  6. 因此,我们认为调整这些特征可以更好地捕捉脂肪对肝脂的影响,从而提高检测先前未知的SLD相关位点的能力。
Para_04
  1. 在这里,我们表明肥胖指标对遗传变异与肝脏甘油三酯含量/炎症之间的关联有不同的贡献,并利用这些指标识别出与单纯性脂肪肝病(SLD)相关的先前未知的遗传位点。
  2. 我们确定并验证了六个先前未知的位点,并生成了两个分隔多基因风险评分(pPRSs),这表明至少存在两种不同类型的非酒精性单纯性脂肪肝病(MASLD),一种仅限于肝脏,另一种则与全身性心代谢综合征交织在一起。

Results

Visceral adipose tissue, whole-body fat mass and BMI are independent predictors of liver triglyceride content and inflammation/fibrosis

内脏脂肪组织、全身脂肪质量和BMI是肝脏甘油三酯含量和炎症/纤维化的独立预测因子

Para_01
  1. 为了确定肥胖指标中肝脏甘油三酯含量和炎症/纤维化的独立预测因子,我们检查了不同肥胖测量方法之间的两两相关性,以及(1)通过磁共振成像(MRI)衍生的质子密度脂肪分数(PDFF)测量的肝脏甘油三酯含量;(2)通过肝脏铁校正T1(cT1)测量的肝脏炎症/纤维化,在来自英国生物银行的欧洲参与者中进行(扩展数据图1a)。
  2. 与肝脏特征最强烈的相关性出现在内脏脂肪组织(VAT)体积之后,依次是BMI、腰臀比(WHR)和全身脂肪量(WFM)。
  3. 正如预期的那样,PDFF和cT1之间存在高度相关性。
  4. 由于肥胖指数之间存在高度多重共线性,我们使用了三种惩罚回归模型(方法)来评估它们对PDFF和cT1的预测贡献。
  5. 表现最佳算法(岭回归)的标准系数显示,VAT是PDFF和cT1最强的独立预测因子,其次是WFM和BMI对于PDFF(扩展数据图1b)。
  6. 在惩罚回归分析中,WHR和全身阻抗几乎没有独立的预测能力,因此我们在遗传关联研究中使用了WFM、BMI和VAT作为协变量。

Identification of 17 previously unknown loci for liver triglyceride content and 9 for liver inflammation/fibrosis by the multi-adiposity-adjusted GWAS

通过多脂肪调整的全基因组关联研究(GWAS)鉴定了17个先前未知的肝脏甘油三酯含量相关位点和9个肝脏炎症/纤维化相关位点

Para_01
  1. 为了利用体脂指数对肝脏甘油三酯含量(PDFF)和炎症/纤维化(cT1)代理指标的独立贡献,我们进行了八次全基因组关联研究(GWAS)(每个特征四次GWAS),统称为多体脂调整的GWAS。
  2. 每次GWAS都根据特定的体脂指数(内脏脂肪、BMI和WFM)进行了调整,且有一次未进行调整(补充表1)。
  3. 对于PDFF的遗传可解释性估计表明,与未调整模型相比,调整体脂指数可以解释高达6%更多的遗传性(补充表2)。
  4. 对于cT1,所有体脂测量结果与未调整模型相似。
  5. 这些数据表明,肝脏甘油三酯含量依赖于体脂,而炎症的相关性较低。
  6. 此外,不同体脂调整之间的遗传相关性显示,BMI和WFM调整在PDFF和cT1上共享最大的重叠(图1a和补充表3),这与流行病学上的相关性一致。

Fig. 1: Overview of the identified loci for liver triglycerides and inflammation/fibrosis by the multi-adiposity-adjustment GWAS.

  • a,使用 LD 分数回归分析估计了不同多体脂调整后的 PDFF 和肝铁校正 T1 之间的遗传相关性。星号表示 Benjamini–Hochberg 假发现率(FDR)<0.05。颜色条代表遗传相关值。遗传相关的详细汇总统计已在补充表 3 中报告。
  • b,不同体脂调整下的 PDFF 和肝铁校正 T1 的圆形曼哈顿图。关联分析使用 REGENIE 进行,调整了体脂指数、年龄、性别、年龄×性别、年龄^2 和年龄^2×性别、前十个基因组主成分和阵列批次。每个点代表一个独立的遗传位点。黄色代表与肝脏 PDFF 相关的位点,紫色代表与肝脏 cT1 相关的位点。大点代表多效性位点(其中与 PDFF 或肝 cT1 的关联在两种或多种体脂调整之间共享)。小点显示特定于体脂-特征的关联。加粗的位点在所有体脂调整下都与两个特征共享。仅显示通过全基因组回归模型计算出的全基因组显著 P <5 × 10^-8 的位点。P 值是双侧的,并未对四种不同模型(未调整、BMI 调整、WFM 调整和 VAT 调整)中的多重检验进行校正。
Para_02
  1. 通过连锁不平衡(LD)聚类和条件分析确定了每个调整脂肪度的GWAS的统计独立遗传位点。
  2. 接下来,我们进行了多效性分析以从四种脂肪度调整中识别独立的遗传位点。
  3. 在这种情况下,多效性分析指的是在每种肝特征中,超过两种脂肪度调整之间共享的遗传位点(补充表4)。
  4. 具体来说,我们将相同的位点编号分配给来自脂肪度调整GWAS(PDFF四个和cT1四个)的领先变异体,前提是它们位于彼此1 Mb范围内,并且超过两个GWAS领先变异体处于连锁不平衡状态(r2 > 0.2)。
  5. 最后,选择每个位点最强(最低GWAS P值)的关联作为该特征(PDFF或cT1)的独立领先变异体。
Para_03
  1. 共有37个和18个独立的遗传位点分别达到了全基因组显著性水平(P < 5 × 10^-8,未调整进行的GWAS数量),分别见图1b和表1。
  2. 多个位点在调整特定体脂指数后显示出最强的关联(补充表5)。

Table 1 Genome-wide significant loci for multi-adiposity-adjusted PDFF and liver iron corrected T1 in the UK Biobank 表1 英国生物银行全基因组显著位点对多体脂调整后的PDFF和肝脏铁校正T1的影响

Para_04
  1. 我们发现了17个与PDFF相关和9个与cT1相关的先前未知的遗传位点(方法、表1和补充表6)。
  2. 四个位点(PNPLA3、TM6SF2、GPAM和HFE/SLC17A3)在至少一种体脂调整后与两种特征相关;然而,只有PNPLA3和TM6SF2位点在全基因组水平上无论是否调整都与两种特征相关(图1b)。

Identification of the putative causal loci associated with liver traits

与肝脏特征相关的假定因果位点的鉴定

Para_01
  1. 为了确定潜在的因果位点,我们对与脂肪调整后的 PDFF 和 cT1 相关的独立全基因组显著性位点进行了精细映射。
  2. 多个位点的独立主要变异体具有后验包含概率(PIP)> 0.95,表明这些 GWAS 主要变异体是因果变异体(补充表 7)。
  3. 值得注意的是,ADH1B 上的一个错义变异(rs1229984)在 ADH1B、MTTP 和 RP11-766F14.2 位点的 PIP 为 1,表明这三个位点观察到的效果可能源自同一个假设的因果变异体。
  4. 事实上,ADH1B rs1229984 和 MTTP rs11937107 在欧洲人中的 D′ 值为 1(补充表 7)。
Para_02
  1. 为了检查一组独立变异是否可能扰乱附近基因的表达模式,我们进行了贝叶斯共定位分析(方法)。
  2. 我们能够将13个和7个GWAS信号与PDFF和cT1的至少一个eQTL证据共定位,分别(补充表8)。

Functional analyses of independent loci associated with liver traits

与肝脏特征相关的独立位点的功能分析

Para_01
  1. 对于调整后的脂肪含量比例(PDFF)和校正T1(cT1)的独立遗传位点,通过多种方法映射到基因并进行排序(方法)。
  2. 在37个和18个分别针对PDFF和cT1的独立位点中,大多数(分别为31个和12个)位点对最近的基因具有最高排名(补充表9)。
  3. 对于剩余的位点,找到了多个候选基因。
  4. 为了更深入地理解全基因组显著位点的生物学意义,我们使用具有最高证据的映射基因进行了功能基因集富集分析(补充表10)。
  5. PDFF的映射基因主要表达在肝脏,并且参与脂质代谢(补充表10a和补充图1a)。
  6. 相反,肝铁校正T1的映射基因则富集在金属离子代谢中(补充表10b和补充图1b)。

Previously unknown genetic loci, liver and metabolic traits

先前未知的遗传位点、肝脏和代谢特征

Para_01
  1. 鉴于肝脏甘油三酯含量与炎症/纤维化之间的因果关系,我们检查了由PDFF识别的先前未知变异与cT1之间的关联,反之亦然。
  2. 值得注意的是,大多数变异与两种特征都有关联,并且方向一致(扩展数据图2)。
  3. 这与肝脏甘油三酯含量导致炎症的观点一致。
  4. 总共有5个(29%)和4个(44%)位点分别与PDFF或cT1相关,表明对脂质或炎症途径的影响具有特异性。
  5. 此外,我们还检查了这些先前未知变异与肝损伤、纤维化和肝病指数之间的关联(扩展数据图2和补充表11)。
  6. 超过80%与PDFF相关的变异也与丙氨酸氨基转移酶(ALT)相关(单侧Fisher精确检验P=0.028);然而,PDFF和cT1位点与天冬氨酸氨基转移酶的相关性没有显著差异(单侧Fisher精确检验P=0.613)。
  7. 大多数变异与血浆脂蛋白和葡萄糖代谢特征有关,包括糖尿病(扩展数据图2和补充表11)。

Indices of adiposity contribute differentially to the association between genetic variants and liver triglycerides

肥胖指数对遗传变异与肝脏甘油三酯关联的贡献存在差异

Para_01
  1. 肥胖是 MASLD 的一个众所周知的风险因素,目前没有证据表明 SLD 对肥胖有因果影响。
  2. 因此,可以假设调整肥胖度不会受到混杂偏倚的影响。
  3. 因此,我们假设 PDFF 或 cT1 与遗传位点之间的关联取决于肥胖度的测量。
  4. 为了探讨这一点,我们进行了不同的统计分析(方法)。
  5. 如补充表 12 和 13 所报告的那样,虽然多肥胖度调整的全基因组关联研究中的总体关联是一致的,但某些位点的关联根据肥胖度调整而有所不同。
Para_02
  1. 例如,我们没有发现 PDFF 和 rs73026242CEBPG 与 BMI 或 WFM 调整之间的关联,但与 VAT 调整存在强烈的全基因组关联。
  2. 这个位点与 VAT 有强烈的关联,但方向与 PDFF 相反,中介分析表明存在不一致的中介,即部分中介的方向相反。
  3. 最近,该位点已被与内脏脂肪与腹部皮下脂肪比值相关联。
  4. 我们的基因映射表明,已知通过 PPARγ 在脂肪生成中发挥作用的 CEBPA 是潜在的因果基因。
Para_03
  1. 相反,尽管 PPARG 位点显示出与所有三个肥胖指标相互作用的证据,但仅在 WFM 调整中观察到了潜在的不一致效应。
  2. 这种变异降低了 PPARγ 的活性,并对糖尿病具有保护作用。
  3. 虽然这种变异对 SLD 的贡献存在争议,但我们观察到它与 WFM 有微弱的正相关关系。
  4. 另一个有趣的发现是 FAM101A 位点,在这里 BMI/WFM 和 VAT 存在名义上的显著关联,但方向相反。
  5. 因此,调整 VAT 减弱了这种关联(PVAT = 0.01)。
  6. 位于该位点的顶级基因 CCDC92 已被证明在胰岛素抵抗和皮下脂肪及外周脂肪中发挥作用。
  7. 另一方面,我们也遇到了相反的情况,即肥胖可能作为部分正向中介,如 PRMT8、MAST3 和 CKM 位点所示。
Para_04
  1. 对于cT1,虽然大多数位点在不同体脂调整下具有一致的关联性,中介分析表明,在PEPD位点上,VAT调整模型可能存在假定的不一致效应。
  2. 该位点排名最高的基因是CEBPA;然而,假设机制是否与上述肝脏甘油三酯含量的描述相似尚不清楚,因为PEPD具有类似的排名,并且与糖尿病和体脂有关。
Para_05
  1. 最后,我们进行了敏感性分析,以检查中介分析对未测量混杂因素的稳健性,并观察到中介估计对顺序可忽略假设具有较强的(对于 PDFF,ρ = 0.6)和中等的(对于 cT1,ρ = 0.4)稳健性。
  2. 鉴于中介分析中的因果假设,这些潜在机制应谨慎考虑。
  3. 此外,由于中介效应和混杂效应在统计上的等价性,所观察到的不一致中介效应可以解释为可能有助于发现未知遗传位点的负混杂效应。
Para_06
  1. 考虑到这一广泛的证据,肥胖指标有助于遗传位点与肝脏甘油三酯含量(PDFF)和炎症/纤维化(cT1)替代指标之间的关联,从而支持我们采用多肥胖调整的全基因组关联研究方法。

The association between six previously unknown loci and liver triglyceride content was replicated in independent cohorts

六个先前未知位点与肝脏甘油三酯含量之间的关联在独立队列中得到了验证

Para_01
  1. 基于PDFF和cT1之间的强遗传相关性,为了验证先前未知的SNPs,我们对四个独立队列中的3,903名欧洲血统个体的所有先前未知的26个变异与肝脏甘油三酯含量之间的关联进行了荟萃分析(图2和补充表14)。
  2. 我们能够复制先前未知的六个位点(CEBPG、TSC22D2、ABO、GUSB、TECTB和TFCP2)与肝脏甘油三酯含量之间的关联。
  3. 在复制队列中关联的方向与发现队列一致。

Fig. 2: The association between six previously unknown loci and hepatic triglyceride content in independent cohorts.

  • 每个遗传变异与基于排名的肝甘油三酯含量逆正态变换之间的关联性分析是通过线性回归分析完成的,调整了年龄、性别、年龄平方、年龄×性别、年龄平方×性别(显示为圆圈)。
  • 对于复制队列中不可用的变异,使用代理变异(在英国生物银行中,每个主要变异周围1.5Mb窗口内r2>0.4)作为标记的星号表示。
  • 合并效应估计是使用逆方差加权固定效应荟萃分析计算的(显示为菱形)。
  • 基因组位点中加粗的是那些在固定效应模型中P值<0.05的位点。
  • 误差条代表来自回归模型或荟萃分析的95%置信区间。
  • 完整的汇总统计已在补充表14中报告。
  • P值是双侧的,并未针对多重检验进行调整。
  • NEO,荷兰肥胖流行病学研究;DHS,达拉斯心脏研究。

Partitioned polygenic risk scores identify a steatotic liver-specific disease and a systemic MASLD

分区多基因风险评分确定了一种特异于脂肪肝的疾病和一种全身性MASLD

Para_01
  1. 甘油三酯分泌是调节肝细胞甘油三酯稳态的关键机制。
  2. 甘油三酯分泌通过极低密度脂蛋白(VLDL)分泌介导,在禁食条件下,循环中的甘油三酯水平可以代表这种分泌。
  3. 基因变异,包括 APOB、MTTP、TM6SF2 和 PNPLA3,如果阻碍 VLDL 分泌,会导致肝脏甘油三酯积聚,同时循环中的脂蛋白水平降低。
  4. 携带这些变异的人患代谢相关性脂肪性肝病的风险增加,但由于脂蛋白水平较低,心血管疾病的风险降低。
Para_02
  1. 基于这一机制,我们将先前未识别的复制变异和已知变异分配到两个多基因风险评分(pPRS)中:(1) 一组显示 PDFF 和循环甘油三酯之间关联不一致(n = 10),表明肝脏甘油三酯含量主要受肝脏保留的影响;(2) 一组显示关联一致(n = 13),表明肝脏甘油三酯含量可能是由于吸收增加、能量底物合成或β-氧化减少所致(方法,扩展数据图 3 和补充表 15)。
  2. 不一致 pPRS 解释的方差高于一致 pPRS,这反映了不一致 pPRS 由 PNPLA3 和 TM6SF2 变异组成(补充表 16)。
Para_03
  1. 两种 pPRS 均与 MASLD 风险增加有关,其中与肝细胞癌 (HCC) 的关联最大;然而,不一致的 pPRS 的关联更强(图 3a、补充图 2 和补充表 17 和 18)。
  2. 值得注意的是,只有不一致的 pPRS 与自身免疫性肝病相关。

Fig. 3: Partitioned polygenic risk scores identify a steatotic liver-specific disease and a systemic MASLD.

  • 图a和b分别展示了UK Biobank中PDFF-循环TGs多基因风险评分(pPRS)与肝脏相关、心脏代谢及慢性肾功能衰竭特征之间的病例对照(a)和前瞻性(b)关联。
  • 使用逻辑回归(a)或Cox比例风险回归(b)分析调整BMI、年龄、性别、年龄×性别、年龄^2和年龄^2×性别、前十个基因组主成分和阵列批次后,测试了PDFF-循环TGs多基因风险评分的一致性和不一致性与每种疾病之间的关联效应。
  • x轴显示的是比值比(OR)或风险比。
  • 所有关联分析均在排除了有可用PDFF数据的个体(n = 36,394)后进行。
  • 误差条代表来自回归模型的95%置信区间。
  • 完整的汇总统计已报告于补充表18。
  • P值为双侧,未对多重假设检验进行校正。
  • TG,甘油三酯。
Para_04
  1. 不一致的 pPRS 与心血管疾病风险降低相关,而一致的 PRS 与心血管疾病和心力衰竭的风险显著增加相关。
  2. 两种 pPRS 都增加了糖尿病的易感性,这表明无论潜在原因如何,肝脏甘油三酯积累都会导致糖尿病。
  3. 相反,尽管对肝脏甘油三酯含量的影响较小,但一致的 pPRS 对糖尿病的影响较大,这表明一致 pPRS 中的糖尿病关联不由肝脏损伤介导。
  4. 对于高血压和慢性肾功能衰竭,不一致的 pPRS 没有显示出关联,而一致的 pPRS 增加了这两种疾病的风险;然而,当我们调整高血压后,与慢性肾功能衰竭的关联不再显著,而其他关联仍然存在。
  5. 进一步调整糖尿病、总胆固醇和酒精摄入量并没有改变结果。
  6. pPRS 在英国生物库中发展肝脏和心脏代谢疾病的风险几乎是相同的(图 3b 和补充表 18)。
Para_05
  1. 对两种 pPRS 的功能基因集富集分析也揭示了一种独特的代谢模式。
  2. 虽然不一致 pPRS 的基因集主要富集于脂质和甘油三酯稳态(补充表10c和补充图3),一致 pPRS 基因集则富集于胰岛素受体信号传导和葡萄糖稳态途径,总体上与刺激从头脂肪生成的影响一致(补充表10d和补充图3)。
Para_06
  1. 除了我们的假设驱动方法外,我们还进行了无监督软聚类分析(方法)。
  2. 在1000次迭代中,90%收敛到两个聚类,10%收敛到一个聚类。
  3. 一个遗传位点rs738408PNPLA3出现在两个聚类中(补充图4)。
  4. 我们使用了两个权重最高的特征来命名聚类:(1) 低密度脂蛋白(负)/甘油三酯(负);和 (2) 甘油三酯(正)/ALT(正)。
  5. 当检查pPRS聚类与相同结果的关联时,我们观察到了与PDFF-循环甘油三酯pPRS相似的分离;然而,定义两种MASLD类型的疾病风险差异在我们的假设驱动方法中更大(补充表19)。
  6. 这可能是由于贝叶斯非负矩阵分解(bNMF)算法的软聚类特性,其中rs738408PNPLA3被包含在两个聚类中(补充图5)。
Para_07
  1. 当比较 pPRS 上四分位数和下四分位数个体之间的血浆生物标志物时,pPRS 不一致的上四分位数个体在脂蛋白水平上的差异最大(补充表 20),这与肝脏特异性亚型相比全身性亚型的保护作用一致。
  2. 此外,pPRS 一致的上四分位数个体具有更高的脂蛋白和血压以及更低的肌酐水平,这与心血管疾病、心力衰竭和肾功能衰竭的风险增加一致。

Sex-specific effect of the association between pPRS and the feature of cardiometabolic syndrome

pPRS 与心脏代谢综合征特征之间关联的性别特异性效应

Para_01
  1. 肝脏疾病在男性和女性之间的患病率不同。
  2. 例如,肝细胞癌(HCC)在男性中更为常见,而自身免疫性肝病在女性中更为普遍。
  3. 此外,PNPLA3 rs738409 基因携带者在男性和女性之间也存在性别特异性差异。
  4. 因此,我们按性别分层检查了两个多基因风险评分(pPRS)与代谢综合征之间的关联。
  5. 分层分析的结果与汇总分析一致,但有以下例外:(1) 肝细胞癌仅在男性中与一致性 pPRS 相关;(2) 心力衰竭仅在女性中与不一致性 pPRS 的保护作用相关;(3) 慢性肾功能衰竭仅在男性中与一致性 pPRS 相关增加。

mRNA expression of loci from the liver-specific PRS is more abundant in the liver

来自肝脏特异性PRS的位点mRNA表达在肝脏中更为丰富

Para_01
  1. 我们进一步检查了在 MAFALDA 队列(肥胖患者接受减肥手术的脂肪肝疾病分子结构研究)中,来自肥胖参与者的肝脏(n = 244)和内脏脂肪组织(VAT,n = 261)配对批量 RNA 测序中一致性和不一致性 pPRS 映射基因的信使 RNA 表达。
  2. 值得注意的是,只有不一致性 pPRS 的映射基因与肝脏中上调的差异表达基因显示出显著重叠(单侧 Fisher 精确检验,P = 0.007;图 4)。
  3. 鉴于 VAT 和肝脏在 MASLD 中的紧密相互作用,这一发现表明,与代谢对应物一致性 pPRS 相比,不一致性 pPRS 具有肝脏特异性。
Fig. 4: mRNA expression of loci from the liver-specific (discordant) polygenic risk score is more abundant in the liver compared to the visceral adipose tissue.

  • 配对的肝脏和 VAT(内脏脂肪组织)批量 RNA 测序数据的差异表达分析,针对一致性和不一致性 pPRS(多基因风险评分)的映射基因集。
  • 右下角的条形图显示了肝脏中相对于 VAT 上调的差异表达(DE)基因的比例。
  • 使用单侧 Fisher 精确检验计算了肝脏中上调的 DE 基因与 pPRS 的富集情况。
  • FC,表示倍数变化。

Discussion

Para_01
  1. 本研究的主要发现是(1)发现了与SLD相关的先前未知的位点;以及(2)确定了两种不同类型的MASLD,即肝脏特异性和全身性类型。
Para_02
  1. BMI 作为肥胖的替代指标,放大了由常见变异赋予的 SLD 遗传倾向;然而,BMI 并未考虑体脂分布和身体成分。
  2. 为了识别与 SLD 相关的先前未知的遗传位点,我们比较了一系列肥胖测量指标,发现 VAT 容积、WFM 和 BMI 是最佳的独立预测因子。
Para_03
  1. 接下来,我们对 PDFF 和铁校正后的 T1 进行了多肥胖调整的全基因组关联研究,作为肝脏甘油三酯含量和炎症/纤维化的测量指标。
  2. 我们的数据显示,肥胖指数可能混淆遗传变异与肝脏甘油三酯含量和炎症/纤维化之间的关联。
  3. 通过这种方法,我们发现了 17 个先前未知的肝脏甘油三酯含量的遗传位点和 9 个肝脏炎症的遗传位点,并在四个独立队列中复制了其中的 6 个位点。
Para_04
  1. 肝脏甘油三酯含量的遗传性受到多脂肪调整的影响,在最佳情况下,与未调整相比,大约能多解释6%的遗传性;然而,对于炎症而言并非如此,这表明炎症的遗传性并不直接受到脂肪量的影响。
  2. 我们之前已经通过孟德尔随机化方法证明了肝脏甘油三酯含量与肝炎风险增加之间的因果关系。
  3. 这一发现进一步得到了我们的观察的支持,即大约80%与PDFF相关的遗传位点也以相同的方向与cT1相关。
Para_05
  1. 肝细胞内甘油三酯稳态由三种基本机制调控:甘油三酯合成、脂蛋白分泌和能量底物利用。
  2. 阻碍脂蛋白分泌会导致由于滞留引起的肝脏甘油三酯积累。
  3. 事实上,TM6SF2 和 PNPLA3 的功能丧失变异通过减少脂蛋白分泌导致肝脏甘油三酯滞留。
  4. 与肝脏脂蛋白滞留一致,这些变异的携带者由于循环脂蛋白较低而患心血管疾病的风险较低。
Para_06
  1. 因此,我们生成了两个多基因风险评分(pPRS):一个由变异体组成,这些变异体在肝脏甘油三酯含量和循环甘油三酯之间的关联不一致;另一个则是它们之间的关联一致。
  2. ‘分隔’的多基因评分可能阐明疾病发病机制,并捕捉推动个体疾病进展的具体特征,从而为定制化治疗干预提供框架。
Para_07
  1. 值得注意的是,一致的多基因风险评分(pPRS)预测了整个心代谢疾病谱。
  2. 相反,不一致的 pPRS 与肝脏疾病相关,这反映在由于脂蛋白滞留而对心血管疾病具有保护作用,尽管糖尿病的风险略有增加。
  3. 不一致的 pPRS 的肝脏特异性进一步得到了肥胖个体肝脏与内脏脂肪配对活检中组成该评分的基因的较高 mRNA 表达的支持。
  4. 我们还使用假设自由的软聚类方法生成了 pPRS,这种方法与我们的假设驱动的方法非常相似。
Para_08
  1. 我们的数据表明至少存在两种具有特定致病分子机制的MASLD:一种特异性针对肝脏,另一种是系统性的,并与心脏代谢综合征相关(扩展数据图4)。
  2. 了解这些成分背后的分子机制可能使我们能够找到治疗MASLD和心脏代谢综合征的有效方法。
  3. 临床上,这些实体反映了快速进展到MASLD后期阶段的个体以及与整个代谢心脏代谢综合征相关的缓慢进展型MASLD的存在。
  4. 这些类型的MASLD可能解释了疾病的异质性,并有助于解释为什么几种药物在临床试验中未能成功治疗MASLD。
Para_09
  1. 目前孟德尔随机化研究是通过选择与某一特征相关的变异,并利用这些变异来解释与另一特征之间的因果关系。
  2. 在这项研究中,pPRS对心血管风险产生了相反的影响,表明如果我们把所有变异合并在一起,可能会使这种关联失效。
  3. 因此,我们的发现支持这样的观点:通过将变异整合到生理途径中构建的pPRS可能有助于阐明疾病发病机制的异质性。
  4. 最终,这将导向精准医疗,改善预后预测和治疗。
  5. 这项研究的一个优势在于,PRS 的划分基于对细胞内脂质稳态的坚实知识驱动的方法。
  6. 虽然心血管疾病的结果可能是预期中的,但与高血压和糖尿病的关联并非显而易见。
  7. 酒精消费可能对 SLD 和心血管疾病产生累加效应。
  8. 酒精在肝细胞中转化为甘油三酯,酒精性和非酒精性 SLD 具有共同的遗传决定因素,这表明它们具有共同的致病机制。
  9. 因此,我们没有根据酒精消费排除个体。
  10. 然而,敏感性分析显示,调整酒精后结果并未改变。
  11. 最后,通过使用完全不同的方法,即在有肝脏活检的个体队列中进行无监督聚类,我们获得了类似的结果。
  12. 我们研究的一个局限性在于,所识别和复制的遗传位点基于欧洲血统的研究队列,这限制了其在非欧洲人群中的适用性。
  13. 未来的研究有必要在非欧洲人群中验证这些位点和多基因风险评分(pPRS)。
  14. 此外,尽管我们进行了遗传共定位和富集分析,但这些位点的功能意义仍有待通过体外和体内实验来确定。
  15. 总之,我们发现了六个与SLD相关的新位点以及两种不同类型的SLD,即一种是肝脏特异性的,另一种则与整个心血管代谢综合征交织在一起。

Methods

UK Biobank

英国生物样本库

Para_01
  1. 英国生物银行研究在2006年至2010年间招募了超过50万名年龄在40至69岁之间的参与者,涵盖了广泛的表型和遗传数据。
  2. 英国生物银行获得了国家研究伦理服务委员会西北多中心海德克(参考编号16/NW/0274)的伦理批准。
  3. 本研究使用的数据是在申请编号37142下获得的。
  4. 欧洲血统是通过使用基因组主成分分析去除离群值来先前定义的。
  5. 此外,如果参与者属于以下任何类别,则被排除在外:(1)超过十个推测的三级亲属;(2)自我报告性别与遗传推断性别不匹配;(3)推测性染色体非整倍体;(4)杂合性和缺失率异常值;以及(5)撤回同意。

Genotypes and imputation

基因型和推算

Para_01
  1. UK Biobank 的参与者使用了两个高度相似(>95% 重叠)的基因分型芯片进行基因分型,然后由 UK Biobank 基于 1000 基因组计划第三阶段、UK 10K 单倍型和单倍型参考联盟参考面板进行了集中推算。
  2. 从大约 9700 万个变异开始,我们保留了 9,356,431 个变异,这些变异的次要等位基因频率(MAF)> 1%,推算质量(INFO)得分 > 0.8,并且 Hardy-Weinberg 平衡检验 P 值 > 1 × 10^-10。

Definition of traits

特征的定义

Para_01
  1. 我们使用了英国生物银行直接提供的体脂测量数据,包括内脏脂肪(数据字段 22407)、腰围肌肉量(数据字段 23100)和全身阻抗(数据字段 23106)。
  2. 腰臀比通过腰围与臀围的比值计算得出。
  3. MRI 导出的质子密度脂肪分数和肝铁校正的 T1 时间由英国生物银行直接提供(数据字段 40061 和 40062)。
  4. 肝脏 MRI 协议的详细信息可以在其他地方找到。
  5. 简而言之,受试者使用西门子 1.5T Magnetom Aera 进行扫描。
  6. 然后使用两种序列采集数据,一种是多回波扰相梯度回波序列,另一种是用于质子密度脂肪分数和校正 T1 时间的改良型反转恢复序列(ShMOLLI)。
  7. 二元特征的定义可在补充表 22 中找到。

Phenotypic prediction models

表型预测模型

Para_01
  1. 为了处理不同肥胖度测量之间的多重共线性,并验证它们在预测质子密度脂肪分数(PDFF)和校正后T1(cT1)值中的贡献,我们拟合了惩罚线性回归模型,并在一个十折嵌套交叉验证(CV)中使用最小绝对收缩和选择算子(LASSO)、岭回归和弹性网进行了模型选择。
  2. LASSO 使用 L1-范数对回归模型进行惩罚,有效地将非贡献特征的影响减少到零。
  3. 另一方面,岭回归利用 L2-范数,使其能够将回归系数向零缩小。
  4. 弹性网通过混合参数 α 结合了 LASSO 和岭回归的元素,同时包含了 L1 和 L2 惩罚。
Para_02
  1. 为了进行交叉验证过程,数据集最初被分为训练集(80%)和测试集(20%)。
  2. 在训练集中,外部交叉验证评估了每个模型的性能,而内部交叉验证用于超参数调整。
  3. 这种调整是通过最小化外层交叉验证每次折叠中α和收缩值网格上的均方误差来实现的。
  4. 然后,在十折交叉验证框架内使用整个训练集训练表现最佳、均方误差最低的模型。
  5. 随后,使用剩余的测试集评估其性能。
  6. 最后,使用前一步骤确定的最佳超参数集对整个数据集进行拟合,以进行最终评估。
  7. 肥胖指数在训练前进行了标准化,而PDFF和cT1值则进行了基于秩的逆正态转换。
  8. 所有模型都调整了年龄、性别、年龄平方、年龄与性别以及年龄平方与性别的交互作用。
  9. 所有分析均在MATLAB (MathWorks) R2023a中完成。

Genome-wide association analysis

全基因组关联分析

Para_01
  1. 使用 REGENIE(v.3.2.8)实现的全基因组回归模型,在加性遗传模型下,分析了 900 万个推算的常见变异与 PDFF 或 cT1 在不同体脂调整下的关联。
  2. 分析调整了 MRI 时的年龄、性别、年龄平方、年龄与性别的交互作用、年龄平方与性别的交互作用、前十个祖先主成分(PCs)、基因分型阵列和体脂指数,其中体脂指数为内脏脂肪(VAT)、体重指数(BMI)或不进行体脂调整。
Para_02
  1. 同样地,我们使用 REGENIE 中的逻辑或线性全基因组回归模型测试了多体脂校正的 PDFF 和 cT1 独立先导变异与其他二元或连续代谢特征之间的关联,并对相同的协变量进行了调整,包括一致的体脂调整。
  2. 在关联分析之前,排除了有可用 PDFF 或 cT1 测量值的个体(n = 36,748)。
  3. 对于基线测量的特征,我们使用腰臀比(WHR)而不是内脏脂肪(VAT)调整,因为后者在基线时不可用。
  4. 为了在 REGENIE 第一步拟合全基因组回归模型,使用了一部分直接基因分型的常见变异(MAF > 1%)。
  5. 在排除长距离连锁不平衡和主要组织相容性复合体(MHC)区域的变异后,保留了缺失率 <0.01 且 Hardy-Weinberg 平衡检验 P 值 > 1 × 10^-15 的变异。
  6. 最终,在 500,000 个碱基对窗口和成对 r^2 < 0.1 的连锁不平衡修剪后,剩下 146,833 个标记。
  7. 在分析前,连续特征进行了基于秩的逆正态变换。

Identifying independent variants

识别独立变异

Para_01
  1. 我们首先进行了连锁不平衡聚类(PLINK v.1.90b6.26 参数:–clump-p1 5 × 10−8 –clump-r2 0.01 –clump-kb 1,000,在排除了有三代以内亲属关系的个体后),以识别出大致独立的位点。
  2. 接下来,为了检测统计上独立的变异,我们在条件和联合多单核苷酸多态性(SNP)分析中实施了近似逐步模型选择,该分析由全基因组复杂性状分析(GCTA-COJO)软件包执行,使用了10 Mb的连锁不平衡窗口,并使用来自英国生物银行的50,000名随机选择的无关欧洲人作为样本内的连锁不平衡结构,如前所述。
  3. 为了检查所鉴定的遗传位点是否已被先前报道,我们在每个主要变异周围1 Mb的范围内搜索了NHGRI-EBI GWAS目录数据库。

Estimating heritability and genetic correlations

估计遗传率和遗传相关性

Para_01
  1. SNP 遗传力和混杂偏倚是通过连锁不平衡评分回归分析(LDSC;版本1.0.1,https://github.com/bulik/ldsc/)使用基线连锁不平衡模型(版本2.2;https://data.broadinstitute.org/alkesgroup/LDSCORE/)估计的,该模型包含97个注释,包括功能注释和等位基因频率/连锁不平衡依赖的结构。
  2. 同样地,排除MHC区域(6号染色体,25-34 Mb)中的变异后,使用LDSC分析计算了成对的遗传相关性,因为该区域具有复杂的连锁不平衡结构。
  3. 在所有分析中,我们将LDSC参数chisq-max设置为一个任意大的数字(99,999),以保留大效应关联。
  4. 当特征对的Benjamini-Hochberg FDR < 0.05时,认为存在显著的遗传相关性。

Pleiotropy analysis

多效性分析

Para_01
  1. 我们评估了在调整不同体脂测量指标后,独立的全基因组显著位点是否特异于每个体脂测量指标,PDFF 和 cT1 GWAS 之间是否共同存在,或者在两者之间共享。
  2. 因此,如果两个独立的主要变异体在彼此 1 Mb 范围内处于连锁不平衡状态(r2 > 0.2),则它们被赋予相同的位点 ID(补充表 4)。
  3. 使用 Circos 绘制了环形曼哈顿图。

Functionally informed fine-mapping

功能导向的精细定位

Para_01
  1. 功能导向的遗传精细定位使用 PolyFun v.1.0.0 和单效应总和(SuSiE,v.0.11.92)进行。
  2. PolyFun 用于使用 L2 正则化的分层 LD 评分回归(S-LDSC)和包含 187 个注释的基线 LD 模型 v.2.2 来估计每个 SNP 的遗传力。
  3. 估计的每个 SNP 的遗传力被用作 SuSiE 中因果变异的先验概率,每个区域最多允许十个因果变异。
  4. 来自英国生物库的 337,000 名无关的白种英国个体用于样本内的 LD 结构。
  5. 排除 6 号染色体上的 MHC 区域后,对每个位点在主要遗传变异周围 1.5 Mb 的窗口内进行了精细定位。

Colocalization

共定位

Para_01
  1. 共定位分析在由 COJO-GCTA 识别的独立遗传位点之间进行,并使用来自 GTEx(v.8)eQTL 目录发布 4 的 49 种组织的基因表达数量性状位点(eQTL)汇总统计数据。
  2. 首先使用 rtracklayer R 包(v.1.54.0)中的 liftOver 函数将 GWAS 汇总统计数据的坐标从构建 37 转换到构建 38。
  3. 我们使用 COLOC-SuSiE 进行共定位分析,假设存在多个因果变异(coloc R 包 v.5.1.0),采用默认先验概率,并考虑每个位点索引变异周围 1.5 Mb 范围内的变异。
  4. 我们仅考虑至少有一个显著变异(FDR P < 0.1,eGenes)的基因,并在每个 eGene 周围 1.5 Mb 的范围内进行共定位分析。
  5. 如果 SuSiE 在 1,000 次迭代后未收敛,则使用传统的(单因果变异)共定位方法。
  6. 最后,H4 后验概率(PP)> 0.8 被视为强烈证据,表明两个特征共享相同的因果变异。

Variant annotation

变异注释

Para_01
  1. 使用从 REST API(https://rest.ensembl.org/)访问的 Ensembl 变异效应预测器(VEP)对独立的全基因组显著性和精细定位的变异进行了注释。

Gene mapping and functional enrichment analysis

基因定位和功能富集分析

Para_01
  1. 为了映射和优先考虑独立遗传位点的候选基因,我们采用了多种方法。
  2. (1)使用 FUMA v.1.5.4 的 SNP2GENE 模块对主要变异进行位置映射到基因,最大距离为 50 kb。
  3. (2)通过 FUMA 进行 eQTL 映射,仅考虑至少有一个显著 eQTL 关联(FDR < 0.05)的基因。
  4. (3)使用 FUMA 进行 3D 染色质相互作用映射,仅考虑转录起始位点上游和下游 250–500 bp 范围内的显著相互作用(FDR < 1 × 10−6)。
  5. (4)使用 FUMA 实现的 MAGMA v.1.08 进行全基因组基因关联分析,使用了 19,535 个经过整理的蛋白质编码基因。只有 Bonferroni 阈值低于 0.05/19,535 = 2.56 × 10−6 的基因才用于基因映射。分析前排除了 MHC 区域内的变异。
  6. (5)从与至少一个组织和 H4 PP > 0.8 的共定位分析中确定的共定位基因。
  7. (6)每个位点中具有最高 PP 的精细映射变异的最近基因(或多个基因)。
  8. (7)每个位点上基于 Open Targets Genetics 的总体 V2G 分数最高的基因。最后,为了优先排序映射的基因,我们通过对上述方法中的证据进行求和计算了一个未加权的排名分数。
Para_02
  1. 通过使用每个位点排名得分最高的基因集,我们使用 Enrichr 工具对 ARCHS4 组织、Reactome 生物途径和基因本体生物过程进行了功能基因集富集分析。
  2. 对于每个数据库,报告了经过 Benjamini-Hochberg FDR 校正后 P 值 <0.05 的显著术语。
  3. 为了可视化,同时使用了校正后的 P 值和 Enrichr 组合得分(-log(P) × OR)。

Partitioned polygenic risk scores of liver triglyceride content

肝脏甘油三酯含量的多基因风险评分

Para_01
  1. 为了定义 pPRSs,遗传位点(完整列表见补充表 15)被分为两组,根据它们与 PDFF 和循环甘油三酯的关联是否一致或不一致。
  2. 我们排除了那些不与循环甘油三酯相关的遗传位点。
  3. 最后,通过取遗传变异的加权和来生成 pPRSs,其中每个位点最强的关联用作权重,这遵循了多效性分析。

Replication cohorts

复制队列

NEO

新纪元组织(或称为新世界组织)

Para_01
  1. NEO 是一项基于人群的队列研究,研究对象是荷兰莱顿及其周边地区年龄在 45 至 65 岁之间的男性和女性,其中 BMI 超过 27 kg/m² 的个体被过度采样。
  2. 基线时,共纳入了 6,671 名参与者,约 35% 的 NEO 参与者被随机选中进行肝脏甘油三酯含量(HTGC)测量,使用磁共振波谱法进行测量。
  3. 基因分型使用 Illumina HumanCoreExome-24 BeadChip 进行,并参考 TOPMed 基因组面板进行推算。
  4. 在本研究中,共使用了 1,822 名具有可用 HTGC 的欧洲血统个体。

Liver BIBLE

肝脏圣经

Para_01
  1. Liver BIBLE-2022 队列包括 1,144 名代谢功能障碍的健康中年人(40-65 岁)(至少符合三个代谢综合征标准:BMI ≥ 35 kg/m²、动脉高血压 ≥135/80 mmHg 或治疗、空腹血糖 ≥100 mg/dL 或糖尿病、男性/女性低高密度脂蛋白 <45/55 mg/dL 和高甘油三酯 ≥150 mg/dL),他们在 2019 年 6 月至 2021 年 2 月期间到意大利米兰的 Fondazione IRCCS Ca’ Granda 医院输血医学科献血。
  2. 肝脂肪含量通过 FibroScan 设备(Echosens)使用受控衰减参数(CAP)非侵入性估计。
  3. 基因分型由 Illumina GlobalScreeningArray (GSA)-24 v.3.0 加上 Multidisease Array (Illumina) 完成,并进一步推算至 TOPMed 参考基因组面板。
  4. 分析时,1,081 名欧洲血统的患者有通过质量控制的基因组数据和可用的 CAP 测量值。

MAFALDA

马法达

Para_01
  1. MAFALDA研究始于2020年5月,结束于2022年4月。
  2. 该研究包括468名连续的病态肥胖(BMI ≥ 35 kg m−2)参与者,他们在意大利罗马生物医学大学接受了减肥手术。
  3. 在MAFALDA参与者中,SLD诊断仅通过肝脏组织学评估了116人,仅通过振动控制瞬时弹性成像(包括使用FibroScan(Echosens)进行的CAP测量)评估了141人,同时采用两种方法评估了148人,另有63人既没有进行CAP测量也没有进行肝脏活检。
  4. 在这项研究中,仅包括通过CAP估计肝脏脂肪含量的个体(n = 172)。
  5. 基因分型与Liver BIBLE队列中的方式相同。
  6. MAFALDA包括总共264对可用的批量转录组数据的内脏和肝脏活检样本。

Dallas Heart Study

达拉斯心脏研究

Para_01
  1. 在这项研究中,仅使用了达拉斯心脏研究(DHS-1)中的828名欧洲裔美国人。
  2. DHS 是一项基于人群的样本研究,研究对象是美国德克萨斯州达拉斯县的居民,其中肝脏甘油三酯含量通过磁共振波谱测量。
  3. 该研究的详细信息可在其他地方找到。

Ethics

伦理学

Para_01
  1. 本研究遵循《赫尔辛基宣言》中概述的原则。
  2. 英国生物银行获得了国家研究伦理服务委员会西北多中心海德克的伦理批准(参考编号 16/NW/0274)。
  3. 本研究使用的数据是在申请编号 37142 下获得的。
  4. NEO 研究得到了莱顿大学医学中心医疗伦理委员会的批准。
  5. Liver BIBLE 研究得到了 IRCCS Ca’ Granda 基金会伦理委员会的批准(ID 1650,2020 年 6 月 23 日修订)。
  6. MAFALDA 研究获得了当地研究伦理委员会的批准(编号 16/20)。
  7. DHS 获得了德克萨斯大学西南医学中心机构审查委员会的批准。
  8. 每位参与者均提供了书面知情同意书。
  9. 这些队列的基本特征列于补充表 23。

Meta-analysis

元分析

Para_01
  1. 先前未知的 PDFF 和 cT1 独立位点与磁共振波谱肝脂肪(DHS-1 和 NEO 研究)或 CAP 测量(MAFALDA 和 Liver BIBLE)之间的关联性分析是通过使用线性回归分析进行的,该分析调整了年龄、性别、年龄平方、年龄×性别、年龄平方×性别和 BMI,在响应变量进行了基于秩的逆正态变换后。
  2. 然后使用固定效应模型和 meta R 包(v.6.5.0)进行了逆方差荟萃分析。
  3. 对于在任一复制队列中不可用的遗传变异,使用替代变异:在 UK Biobank 中与主要变异体在 1.5 Mbp 范围内具有连锁不平衡(R2 > 0.4)的变异体。
  4. 如果在 UK Biobank 中未找到这样的变异体,则改用 1000 基因组项目中的欧洲人群的 LDproxy 工具。
  5. 在存在多个替代变异体的情况下,选择具有最高连锁不平衡和功能影响的变异体。

RNA-seq analysis

RNA测序分析

Para_01
  1. 来自 MAFALDA 队列的 264 对肝脏和 VAT 样本的总 RNA 使用 miRNeasy Advanced Mini 套件(QIAGEN)分离。
  2. RNA 测序和文库制备使用 Illumina NovaSeq PE150(Novogene)以配对末端 150-bp 模式进行。
  3. 在质量检查(FastQC 软件 v.0.12.0,Babraham 生物信息学)后,使用 STAR(v.2.7.10a)将读段比对到 GRCh38 参考基因组,并通过 Trimmomatic(v.0.39)修剪低质量读段和潜在污染适配器。
  4. 使用 RSEM(v.1.3.3)工具针对 Ensembl(版本 107)计算基因水平的读段计数。
  5. 在分析前排除了唯一映射率低于 0.7 的样本(唯一映射读段与总映射读段的比例)。
  6. 最终,使用 DESeq2(v.1.38.3)进行了 261 个 VAT 和 244 个肝脏样本的配对差异表达分析,同时调整了 RNA 完整性数字、个体 ID 和通过替代变量分析检测到的五个替代变量。

Follow-up analysis

后续分析

Para_01
  1. 通过 Cox 比例风险回归测试了 PRS 与结局发生之间的纵向关联,并表示为具有 95% 置信区间的风险比。
  2. 中位随访时间为 14.5 年,基线时有任何诊断的个体在分析前被排除(补充表 22)。
  3. 通过考虑 Schoenfeld 残差检查了比例风险假设,未发现违规情况。
  4. 前瞻性关联在 R v.4.0.2(R 统计计算基金会)中进行。

Gene–adiposity interaction analysis

基因-肥胖相互作用分析

Para_01
  1. 在 REGENIE(v.3.2.8)中使用稳健标准误差(夹层估计量 HC3)进行了基因-体脂相互作用分析,以防止异方差性。
  2. 分析调整了 MRI 时的年龄、性别、年龄平方、年龄与性别的交互项、年龄平方与性别的交互项、前十个祖先主成分、基因分型芯片和体脂指数,其中体脂指数为内脏脂肪(VAT)、腰围脂肪质量(WFM)或体重指数(BMI)。
  3. 由于相互作用效应大小对特征转换的敏感性,PDFF 和肝铁校正的 T1 在相互作用分析前进行了对数转换。

Mediation analysis

中介分析

Para_01
  1. 为了检查已识别的独立位点对 PDFF 或肝脏铁校正 T1 的影响是否通过体脂测量介导,我们使用 mediation R 包进行了中介分析。
  2. 所有模型均调整了 MRI 时的年龄、性别、年龄平方、年龄与性别的交互作用、年龄平方与性别的交互作用、前十个祖先主成分、基因分型阵列以及在 REGENIE 第一步中估计的多基因协变量。
  3. 我们还考虑了包含遗传变异-中介变量交互项的情况。
  4. 通过非参数自助法(1,000 次模拟)评估中介作用的显著性(P 值和 95% 置信区间),以基于秩的逆正态变换的 PDFF 和肝脏铁校正 T1 作为结果变量,体脂测量作为中介变量。
  5. 我们还进行了敏感性分析,以检查顺序忽略假设(体脂指数和肝脏特征之间可能存在未观察到的混杂因素)。
  6. 这通过检查肝脏特征和体脂指数模型误差项之间的相关系数来完成,在此估计的中介效应为零(95% 置信区间包含 0)。

Association analysis with adiposity measures

与体脂测量相关的关联分析

Para_01
  1. 使用 REGENIE(v.3.2.8)实现的全基因组回归模型进行了多体脂调整的 GWAS 中独立位点与 BMI、WFM 或 VAT 之间的关联分析。
  2. 所有模型均调整了 MRI 时的年龄、性别、年龄平方、年龄与性别的交互项、年龄平方与性别的交互项、前十个祖先主成分和基因分型芯片。
  3. 体脂测量在分析前进行了基于秩的逆正态转换。

bNMF clustering

bNMF聚类

Para_01
  1. 我们应用了bNMF,一种无监督的软聚类方法,来定义从多肥胖度调整的GWAS中独立位点的‘假设自由’聚类。
  2. 这种方法已被成功用于寻找与2型糖尿病相关的生理相关分区多基因风险评分。
  3. 我们首先使用REGENIE对年龄、性别、年龄平方、年龄×性别、年龄平方×性别、前十个祖先主成分和肥胖指数进行了调整,分析了ALT(谷丙转氨酶)、天冬氨酸氨基转移酶、糖化血红蛋白、循环甘油三酯、低密度脂蛋白胆固醇、葡萄糖、肌酐、收缩压和胱抑素C之间的关联,其中肥胖指数是根据多肥胖度调整的GWAS中最显著的关联选择的。
  4. 由于基线时没有可用的VAT,我们使用了腰臀比(WHR)代替。
  5. 然后,在考虑每个连续性状GWAS的不同样本量的情况下,构建了一个标准化z分数的变异-性状关联矩阵(m × n,其中m和n分别是与PDFF和上述连续性状相关的独立位点的数量)。
  6. 该缩放矩阵随后与PDFF增加等位基因对齐。
  7. 使用bNMF R管道(https://github.com/gwas-partitioning/bnmf-clustering)进行bNMF聚类,设置最大聚类数K为7,迭代1000次,并移除高度相关性状(皮尔逊相关系数>0.85)。
  8. 在确定最可能的K值的最大后验解后,使用一个最大化信噪比(1.08)的截止值来保留每个聚类中的变异。
  9. 每个聚类中权重最高的两个性状用于定义聚类名称。
  10. 最后,通过每个聚类中遗传变异的加权和生成pPRSs,其中权重是从PDFF的多肥胖度调整GWAS中得出的。

Comparison between bNMF and PDFF-TGs pPRS

bNMF与PDFF-TGs pPRS的比较

Para_01
  1. 为了比较基于假设驱动的 PDFF-TGs 方法和通过 bNMF 算法识别出的两种 pPRS,以区分肝脏、心脏代谢和肾脏结局,我们进行了如下 Wald 检验:

错误!!!- 待补充

Reporting summary

报告摘要

Data availability

Para_01
  1. 与本研究相关的所有数据均在论文或补充信息中呈现。
  2. 多体脂调整的PDFF和肝铁校正T1(GRCh37)的全基因组关联研究数据已在GWAS目录上公开,对应的访问编号为:GCST90446646, GCST90446647, GCST90446648, GCST90446649, GCST90446650, GCST90446651, GCST90446652 和 GCST90446653。
  3. 通过GWAS目录访问的所有外部GWAS汇总统计资料均为公开可用,并已在补充表6a,b中引用。
  4. 对于英国生物银行,所有个体水平的表型/基因型数据均可通过向英国生物银行正式申请获得,网址为 http://www.ukbiobank.ac.uk。
  5. MAFALDA研究的伦理审批限制了个人数据的公开共享;然而,来自MAFALDA队列的研究人员可以提交提案,在出版后9至36个月内访问原始或分析的数据。
  6. 提案应发送给S.R.,邮箱为[email protected]。S.R.将审查每个请求以评估数据的可用性。收到请求后8周内将提供答复。
  7. 需要注意的是,患者相关数据可能因保密规定而受到限制。如果获准共享,数据将在材料转让协议下进行转移。
  8. NEO研究的请求应发送至[email protected]。肝BIBLE研究的请求应发送至[email protected]。达拉斯心脏研究的请求应发送至[email protected]
  9. 以下在线数据库已被使用:GWAS目录,https://www.ebi.ac.uk/gwas/ 和基线LD模型:https://data.broadinstitute.org/alkesgroup/LDSCORE/。

Code availability

Para_01
  1. 所有用于分析的代码和脚本可在 https://github.com/Ojami/PartiotionedPRS_custom 获取。
  2. 使用了学术许可下的 MATLAB R2023a。
  3. 本工作中使用的公开工具列表如下:REGENIE v.3.2.8 (https://github.com/rgcgithub/regenie); PLINK v.1.90b6.26 (https://www.cog-genomics.org/plink/); GCTA-COJO (https://yanglab.westlake.edu.cn/software/gcta/#COJO); LDSC (https://github.com/bulik/ldsc/); Circos (http://circos.ca/); PolyFun: https://github.com/omerwe/polyfun); SuSiE v.0.11.92 (https://github.com/stephenslab/susieR); rtracklayer v.1.54.0 (https://bioconductor.org/packages/release/bioc/html/rtracklayer.html); coloc v.5.1.0 (https://github.com/chr1swallace/coloc); Ensembl VEP REST API (https://rest.ensembl.org/); FUMA v.1.5.4 和 MAGMA (https://fuma.ctglab.nl/); Open Targets Genetics (https://genetics.opentargets.org); Enrichr R 包装器 (https://github.com/wjawaid/enrichR); meta (https://cran.r-project.org/web/packages/meta/index.html); LDproxy (https://ldlink.nih.gov/?tab=ldproxy); STAR v.2.7.10a (https://github.com/alexdobin/STAR); FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/); Trimmomatic v.0.39 (http://www.usadellab.org/cms/?page=trimmomatic); RSEM v.1.3.3 (https://github.com/deweylab/RSEM); DESeq2 v.1.38.3 (https://bioconductor.org/packages/release/bioc/html/DESeq2.html); R v4.0.2 (https://www.r-project.org/); bNMF (https://github.com/gwas-partitioning/bnmf-clustering); 以及 mediation R 包 v.4.5.0 (https://cran.r-project.org/web/packages/mediation/index.html)。