专栏名称: 测序中国
测序中国(seq.cn):基因行业新媒体
目录
51好读  ›  专栏  ›  测序中国

Nat Commun | 郑厚峰团队发表样本量最多、种群多样性最丰富的亚洲人群单倍型参考panel

测序中国  · 公众号  ·  · 2025-01-03 15:35

正文

全基因组关联研究(GWAS)可在全基因组层面上揭示疾病发生、发展与治疗相关的遗传基因。 基因型插补(genotype imputation)是GWAS的一个重要工具,可以精确地预测没有被芯片所覆盖的多态性位点的基因型,使得更多的遗传位点应用到关联分析中,从而提高发现新致病基因的可能性,并有助于发现风险变异的多效效应。

基因型插补需要单倍型参考panel。 多样化的参考panel可以提高遗传多样性群体的插补准确性,而特定祖先的参考panel可以使相应的群体受益。 由于插补的准确性直接影响后续分析的可信度,因此在插补之前选择合适的参考panel至关重要。
近日, 苏州大学附属第二医院郑厚峰团队联合浙江大学、滨州医学院等单位 的研究人员在 Nature Communications 发表文章“SEAD reference panel with 22,134 haplotypes boosts rare variant imputation and genome-wide association analysis in Asian populations”, 报道了南亚和东亚人群参考数据库(SEAD)panel,该panel整合了来自17个亚洲国家的11,067个个体的WGS数据。 研究团队重点评估了该panel的插补质量,并探索了其在推断骨骼相关性状的可能因果罕见变异中的应用。

前的大多数全基因组测序( WGS )工作都是在欧洲人群中进行的,这使欧洲人口大规模联合参考 panel 的发展成为可能。 但在人类基因组研究中,缺乏种族多样性可能会阻碍基因组科学的发展。 近年来,亚洲多个国家启动了大规模人群测序研究,以了解亚洲人群的遗传基础,例如中国、日本、韩国、新加坡、印度等。 其中,中国于 2017 年启动了西湖华人生物库( WBBC )项目。 截至目前,该项目已有 4480 份全基因组测序样本( WBBC-seq )和 6080 份全基因组基因分型样本( WBBC-chip ),覆盖中国 34 个行政区划中的 29 个。

在此次发表的研究中,研究团队整合了来自SG10K(13.7×,4563个样本,3个种群)、GenomeAsia(36×,1031个样本,11个种群)、WBBC(13.9×,4480个样本,1个种群)和高覆盖率的1kGP-Asian(30×,993个东亚和南亚样本,8个种群)的WGS数据,创建了用于基因型插补的综合参考panel SEAD。

由于SEAD panel来自4个不同的数据集,研究团队通过主成分分析评估了批次效应,证实了用于构建单倍型参考panel的数据集中不存在批处理效应。最终, SEAD panel由22,134个单倍型和88,294,957个变异组成,是亚洲覆盖范围最全面的panel之一。

图1:研究设计

为了评估SEAD panel在南亚人群中的插补性能,研究团队利用UKB数据库生成了三个数据集,这些数据集由不同比例的南亚祖先组成(50-70%、70-90%和>90%)。研究发现,SEAD panel在所有祖先组成比例中始终显示出最高比例的低频位点(Rsq > 0.8和MAF < 5%),特别是在>90%组中(图2)。与1kGP、TOPMed和ChinaMAP相比, SEAD panel的南亚人群的插补准确性更高。

研究团队进一步评估了亚洲人群的插补准确性(图2)。与其他三个 panel 相比, SEAD panel显示杂合子和纯合子基因型的一致性率更高,在特异性和精确度方面也观察到类似的趋势。 对于(次要等位基因频率)MAF < 0.05的变异,SEAD比TOPMed和ChinaMAP表现出明显的优势。

图:南亚和中亚人群的插补性能。

随后,研究团队评估了1kGP、TOPMed、ChinaMAP和SEAD panel在东亚人群中的插补精度。与ChinaMAP相比, SEAD的一致性率分布更为集中; ChinaMAP的杂合子和纯合子基因型一致性率最高;TOPMed和1kGP的一致性率低于两个亚洲panel。对于不同东亚人群,SEAD在柬埔寨(东南亚人群)的表现优于TOPMed和ChinaMAP,并且与日本人群中的ChinaMAP panel具有相似的准确性。在其他东亚人群中,ChinaMAP始终显示出比SEAD panel更高的准确性。

图:东亚人群的插补性能。

由于已有研究计划的东亚人群样本量有限,研究团队使用四个panel对WBBC-chip中5679个汉族样本的数据进行了插补。结果显示,ChinaMAP在所有MAF bins中始终表现出最高的准确性,SEAD优于TOPMed和1kGP。就良好插补的位点数量而言, SEAD的位点数量随着MAF的增加而越来越接近ChinaMAP 。研究还发现, SEAD和ChinaMAP panel的纯合子和杂合子的一致性率相似且较高。

此外,研究团队比较了四个panel(WBBC-seq、1kGP、SG10K、GAsP)与SEAD的性能。在七个MAF bin中, 基于SEAD插补获得的良好插补变异数量始终超过meta插补,特别是对于罕见/低频变异。 最后,研究团队将SEAD panel应用于WBBC-chip数据的骨矿物质密度GWAS分析,并 确定了一个亚洲特有的罕见位点SNTG1 ,该位点在大规模的GWAS中尚没有报道。

已有的WGS研究数据集为合并成一个单一的、更全面的、更广泛的参考panel提供了独特的机会,增强了其在亚洲人群遗传研究中的实用性。 SEAD panel整合了来自多个亚洲国家地区的WGS数据,是亚洲地区样本数量最多、种群多样性最丰富的亚洲人群单倍型参考panel,并在南亚人群的基因型插补中显示出显著优势,在东亚人群的基因型插补中显示出较高的准确性,尤其是在检测罕见变异方面

目前, SEAD panel可 免费使用( https://imputationserver.westlake.edu.cn/),为亚洲人群的遗传研究提供更好基因型插补服务。

论文原文:

Yang, MY., Zhong, JD., Li, X. et al. SEAD reference panel with 22,134 haplotypes boosts rare variant imputation and genome-wide association analysis in Asian populations. Nat Commun 15, 10839 (2024). https://doi.org/10.1038/s41467-024-55147-4

该文章为平台原创,欢迎个人转载分享,其他平台转载请注明来源

·END·

热文推荐

48.6% NIPT结果异常或不可报告的孕妇患有未被发现的癌症

基于游离RNA的深度生成式AI模型可检测早期肺癌及不同亚型







请到「今天看啥」查看全文