数量性状位点(QTL),是指基因组中影响数量性状的基因或基因组区域,主要分为表达数量位点(eQTL), 蛋白质数量性状位点(pQTL),剪接数量性状位点(sQTL), 甲基化数量性状位点(mQTL)。sQTL是指基因组中的特定位点,其遗传变异与RNA剪接过程中的变化相关联。RNA剪接是转录后基因表达调控的一个重要环节,它涉及将前体mRNA中的非编码区移除,并将编码区拼接在一起,形成成熟的mRNA,最后翻译成蛋白质。sQTL通过影响剪接位点的选择或剪接方式的变化,可以导致不同的mRNA剪接异构体的产生。这种遗传变异可能影响剪接因子的结合位点或剪接机制本身,从而改变蛋白质的结构和功能,最终影响生物的表型或疾病风险。小编为大家带来一篇发表在American Journal Of Human Genetics(IF= 10.502)上的文章,该研究通过sQTL分析系统揭示了影响选择性剪接的遗传变异。在此基础上,整合非小细胞肺癌(NSCLC)全基因组关联研究(GWAS)数据,通过基于剪接的全转录组关联研究(spTWAS),识别NSCLC易感位点,探索遗传变异调控选择性剪接影响NSCLC易感性的生物学机制。
Integrative splicing-quantitative-trait-locus analysis reveals risk loci for non-small-cell lung cancer
整合剪接数量性状位点分析揭示了非小细胞肺癌的风险位点
一、研究背景
肺癌是中国最常见的癌症之一,也是导致癌症死亡的主要原因。自 2008 年以来, GWAS已鉴定出 61 个肺癌易感基因位点,为了解肺癌的遗传结构提供了重要依据。此外,由于大多数风险变异位于基因组的非编码区,因此介导这些关联的靶基因和下游生物通路仍然难以捉摸。eQTL分析有助于发现 GWASs 确定的易感位点的候选基因,然而,只有中等比例的肺癌易感位点可由 eQTLs 解释。选择性剪接是一种重要的转录后调控机制,它使单个前体mRNA 产生多种成熟 mRNA 异构体,这些异构体可被翻译成功能各异的蛋白质。越来越多的证据表明,选择性剪接由可遗传的基因变异(sQTL)调控,特别是sQTL 的鉴定有助于深入了解一些性状或疾病的 GWAS 关联机制。目前,肺部 sQTLs 对 NSCLC 风险的影响在很大程度上还未得到充分探索。
本研究首先利用一个全基因组基因型和基因剪接数据储存库,对来自 116 名中国血统的正常肺组织进行了 sQTL 分析,以系统地研究选择性剪接的遗传控制。接下来,描述了这些 sQTL 的基因组特性。然后,利用 spTWAS将肺部 sQTLs 和大规模 GWAS整合在一起,发现了 NSCLC 的易感位点。最后,进行了功能实验,以确认潜在致病变体和靶基因的生物学机制。
二、主要结果
1. 肺组织中 sQTL 的鉴定和特征描述
研究通过对来自血液的 DNA 样本进行 全基因组测序(WGS )分析来测定基因型,并量化了116例正常肺组织中的选择性剪接事件,然后研究了选择性剪接的遗传控制。接下来,进行了 sQTL 分析,以确定影响选择性剪接的顺式调节变异。在 FDR < 0.05 的条件下,确定了 1,385 个 sGenes 和 378,210 个重要的变异-内含子对,其中包含 3,232 个 携带sQTL的内含子(sIntrons)(图 1A)。为了研究 sQTL 变异的基因组特征,计算了每个 sQTL 变异与相应剪接接头的距离,并观察到 sQTL 变异聚集在剪接接头周围,60%的 sSNPs (每个 sIntron 中最重要的 sQTL 变异被定义为 sSNP)位于剪接接头 10 kb 范围内(图 1B)。大多数 sSNPs(57%)位于发生相应剪接事件的基因体内(图 1C)。
研究使用多种统计方法来评估南京肺癌队列( NJLCC) 和 GTEx 之间的 sQTL 共享程度。首先观察到 NJLCC 的 1,385 个 sGenes 中有 1,023 个与 GTEx 肺组织中的 sGenes 重叠(图 1D)。其次发现,在 NJLCC 中的 3,232 个 sSNPs 中,有 1,012 个在 GTEx 肺组织中未检测到。此外,NJLCC 中还有 308 个 sIntrons 的 sSNPs 未被 GTEx 捕获。因此,可以从 GTEx 肺组织中计算出 59.2% 的NJLCC sSNPs统计数据。这些 NJLCC sSNPs 的 Storey's π1 = 0.896,其中 96.3% 与 GTEx 肺组织的效应方向相同(图 1E)。
研究还对吸烟者和非吸烟者的正常肺组织进行了 sQTL 分析。在吸烟者和非吸烟者中分别发现了 307 个和 528 个 sGenes(FDR < 0.05)。在这一阈值下,吸烟者中 22.1% 的 sGenes 和非吸烟者中 54.7% 的 sGenes 似乎具有组织特异性,共有 239 个 sGenes。使用 Storey's π1 统计量作为更敏感的方法,观察到吸烟者中 86.3% 的 sSNPs 与非吸烟者共享。对于非吸烟者的 sSNPs,81.4% 与吸烟者共享,大多数吸烟者和非吸烟者的sSNPs效应方向是一致的。
图1 sQTL s的鉴定和特征描述,以及sQTL和eQTL的比较
2. sQTLs 富集于转录活跃区、遗传调控元件和剪接因子结合位点
研究进一步评估了肺组织或肺源性细胞系中 sQTLs 在遗传调控元件的功能富集模式。肺 sQTLs 在转录活跃区和增强子中明显富集,它们在以异染色质、被抑制的多聚酶和静止区为标志的沉默染色质中被耗尽(图 1F)。肺sQTLs在转录因子结合位点(TFBSs)、ATAC-seq检测到的开放染色质区域、CpG位点、TAD以及针对启动子(H3K4me3)、增强子(H3K4me1和H3K27ac)和转录区域(H3K36me3)的组蛋白修饰标记中强富集(图1F)。研究进一步对转录因子的结合位点进行了富集分析,观察到肺部 sQTLs 在 24 个转录因子的结合位点有显著富集。
前体 mRNA 剪接是通过广泛的蛋白质-RNA 相互作用网络进行调控的,其中涉及前 mRNA 中的顺式元件和反式作用因子。研究评估了这些剪接调控蛋白结合位点的 sSNPs 富集情况,发现 21 个剪接调控蛋白的结合位点中 sSNPs 显著富集。富集最多的是 RBM5,其次是 HNRNPH1、RBFOX2、ZRANB2 和 HNRNPK(图 1F)。
3. sQTLs大多独立于eQTLs,并在NSCLC GWAS位点中富集
为了评估sQTLs与eQTLs之间的关系,对来自NJLCC研究的116个正常肺组织进行了eQTL分析,发现了3438个eQTLs携带基因(eGenes)。eGenes与 sGenes的重叠分析表明,425 个(30.7%)sGenes也是 eGenes(图 1G)。在这些重叠基因中,有 268 个(63.1%)基因的前导 eQTL 与前导 sQTL(每个基因中最重要的 sSNPs)至少相距 10 kb(图 1H)。此外,284 个基因(66.8%)的前导 eQTL 与 sQTL 之间的 r2 < 0.8(图 1I)。这些特征表明,大多数sQTLs与eQTLs不同,整合sQTLs可能会为NSCLC的病因学提供更多的见解。
为了评估肺sQTLs在中国NSCLC风险中的潜在作用,分析了NSCLC GWAS变异在NJLCC肺sQTLs中的富集情况。与 NSCLC 和肺腺癌相关的变异在肺 sQTLs 中明显富集(图 1J),与肺鳞癌相关的变异在肺sQTL中没有明显富集。这些发现凸显了肺sQTL在NSCLC发展中的重要作用。
4. spTWAS 对 NSCLC 候选易感基因进行优先排序
图2 NSCLC剪接转录组关联研究的曼哈顿图
研究整合了 NJLCC 的基因型和内含子使用比数据作为参考面板,重新分析了 NSCLC GWAS 的汇总数据,从而进行了 spTWAS,确定 NSCLC 的易感基因。在 19 个基因中发现了 23 个与总体 NSCLC 或组织学亚型风险显著相关的选择性剪接事件(图 2),其中,15 个基因中的 18 个选择性剪接事件位于已知的肺癌易感位点。
这些结果有助于确定每个基因座中已知的易感性变异的可能靶基因。研究还发现有四个基因的选择性剪接事件与已知的肺癌易感基因位点并不重叠,包括一个针对整个 NSCLC 的位点 7q22.3(RP11-325F22.2)和三个针对肺腺癌的位点 3q23(XRN1)、8q23.1(EIF3E)和 13q32.2(FARP1)。共定位分析表明,8q23.1 和 13q32.2 的两个重要的选择性剪接事件极有可能发生共定位(图 2)。研究发现,8q23.1 中 EIF3E 的两个选择性剪接事件与肺腺癌风险显著相关。条件分析表明,内含子 EIF3E chr8: 109,245,901-109,247,227 在很大程度上解释了该区域的 GWAS 信号(图 3A)。此外,肺腺癌的 GWAS 信号与该剪接事件的 sQTL同位。当以 rs677031 为条件时,该内含子与该区域所有其他变异之间的关联性减弱(图 3B),表明该内含子剪接事件有一个因果 sQTL 变异。8q23.1 中的候选选择性事件包含在 EIF3E 的四个转录本中(图 3D)。但共表达分析和转录本表达 QTL 分析确定 EIF3E-011 为潜在靶标,它在 GENCODE v.19 中被注释为蛋白质编码转录本。
rs677031-G 等位基因与正常肺组织中 EIF3E chr8: 109,245,901-109,247,227 内含子使用率降低有关(图 3E、F)。此外,rs677031 和 EIF3E 转录起始位点(TSS) 周围 1 Mb 窗口内的变异均与 EIF3E 的总体表达不相关(图 3C、G)。EIF3E chr8: 109,245,901-109,247,227与EIF3E-011的表达增加相关(图3H),rs677031-G与NJLCC肺组织中EIF3E-011表达减少相关(图3I),这与sQTL的趋势一致。这些结果表明,EIF3E剪接改变了EIF3E-011的表达,但没有改变EIF3E的总表达,它可能是8q23.1基因变异与肺腺癌风险之间的介导因素。
图3 EIF3E处的spTWAS关联表明目标基因与总表达的遗传效应无关
研究还在 13q32.2 位点发现了 FARP1 剪接与肺腺癌风险之间的另一个 spTWAS 关联(图 2)。13q32.2 中与肺腺癌风险相关的最重要变异 rs35861926(图 4A)也是 FARP1 内含子 chr13: 99,090,112-99,091,058 的 sSNP。该内含子与 FARP1 第 20 号外显子的剪接有关,可能会调控蛋白质编码转录本 FARP1-011 的表达(图 4D)。在正常肺组织中,rs35861926-T等位基因与FARP1内含子chr13: 99,090,112-99,091,058的使用率降低有关(图4B、E、F)。共表达分析表明,内含子 FARP1 chr13: 99,090,112-99,091,058 的使用与 FARP1-011 之间存在正相关(图 4G)。同样,rs35861926-T 与 FARP1-011 的表达降低有关(图 4H)。此外,rs35861926 与 FARP1 的总体表达无关(图 4C 、I)。这些结果表明,控制 FARP1-011 表达的 FARP1 剪接可能介导了 rs35861926 对肺腺癌风险的遗传效应。
图4 易感位点调控EIF3E选择性剪接影响肺腺癌的发生风险
5. 风险变异rs35861926的T等位基因促进肺腺癌FARP1第20外显子的选择性剪接
风险变异 rs35861926 的 T 等位基因与 FARP1 内含子 chr13: 99,090,112-99,091,058 的使用率降低和 FARP1-011 的表达量减少有关。rs35861926 是位于 FARP1 第 20 外显子的错义变异。PolyPhen-2 和 SIFT 分别预测该变异为良性和耐受性变异,这表明 rs35861926 可能不会通过改变单个氨基酸而产生影响。将含有不同 rs35861926 等位基因的 FARP1 小基因的质粒转染到 A549 和 PC9 细胞中(图 5A)。结果显示,与 rs35861926-G 相比,rs35861926-T 促进了 FARP1 第 20 号外显子的选择性剪接,导致长转录本 FARP1-011 的表达减少(图 5B)。
图5 rs35861926-T促进肺腺癌中FARP120号外显子选择性剪接
6. FARP1长转录本促进肺腺癌细胞的增殖和迁移
为了研究FARP1两个转录本之间的潜在功能作用,在A549和PC9细胞中过表达了长转录本(FARP1-011)和截短转录本(FARP1-001)。值得注意的是,过表达的长转录本 FARP1-011 可提高 A549 和 PC9 细胞系的细胞活力和集落形成能力(图 6A 、B)。同样,EdU掺入试验表明,长转录本 FARP1-011 可促进 A549 和 PC9 细胞系的细胞增殖(图 6C)。透孔试验显示,FARP1-011 组的细胞迁移能力增强(图 6D)。
图6 FARP1长转录本可促进肺腺癌细胞增殖和迁移
三、总结
这项研究以全基因组基因型和基因剪接数据集为基础,对 116 名中国参与者进行了 sQTL 分析,发现了1,385个sGenes和378,210个重要的变异-内含子对,其中包含3,232个sIntrons。对这些 sQTLs 进行了深入研究,发现它们富集于转录活跃区、遗传调控元件和剪接因子结合位点。此外,sQTLs在很大程度上独立于eQTLs,并在NSCLC GWAS基因位点中富集。通过将肺部sQTLs与大规模NSCLC GWAS整合,不仅确定了6个已知肺癌易感基因位点的可能候选基因,还发现了另外4个可能通过调控目标基因的选择性剪接而发挥效应的易感基因位点。进一步的功能实验发现,sSNP rs35861926 的 T 等位基因会促进 FARP1 第 20 号外显子的选择性剪接,从而降低长转录本 FARP1-011 的表达水平。FARP1-011 表达水平的降低抑制了肺腺癌细胞的增殖和迁移,这可能是 rs35861926-T 等位基因降低肺腺癌风险的原因。
研究开展了一项全基因组sQTL研究,系统鉴定了中国人群肺组织中的sQTLs基因组特征,并通过spTWAS以及功能实验,为肺癌易感位点及其分子机制的解析提供了新的视角。
Wang Y, Ding Y, Liu S, Wang C, Zhang E, Chen C et al. Integrative splicing-quantitative-trait-locus analysis reveals risk loci for non-small-cell lung cancer. American journal of human genetics 2023;110:1574-89.
更多个性化方案设计
扫码领取
适合临床医生的科研方案