PGG.Population是2017年11月份发表在Nucleic Acids Research核酸研究杂志上的一篇关于人类种群信息的数据库,文章的通讯作者为中国科学院上海生命科学研究所的徐书华教授。
文章链接为:https://doi.org/10.1093/nar/gkx1032
数据库链接为:https://www.pggpopulation.org/
数据库记录了来自107个国家,在全球范围内具有代表性的356个种群对应的7122个人类基因组信息。在网站上,通过用户友好的可视化工具,可以查看种群间的遗传多样性、种群关系、祖先构成、自然选择、种群历史等信息。整个工作,为了解人类遗传进化、变异、祖源信息、医药临床研究,提供了重要的数据平台。
这里,值得注意的是,除开科学意义重大外,数据库网站采用可视化工具对结果进行展示,视觉效果和用户体验非常优秀。不得不提一句,许多重要的动植物物种已经积累了大量的SNP芯片数据,重测序数据,却缺乏一个对应的群体信息数据库,该文章提供了很好的参考价值。
PGG.Population数据库的数据不仅来自于国际项目(国际单体型图计划、千人基因组计划),还包括本土的测序计划(如藏族人、夏尔巴人)。数据类型包括:Illumina 的SNP芯片结果、Affymetrix的SNP芯片结果、高通量测序数据。详细过程,参考文章数据收集部分的讲解。
接着,对收集好的数据进行整合、分析、质控。采用常见的分析工具,如BWA、GATK、Plink等,从而得到群体SNP的Genotyping结果。利用Genotyping结果,进行Y染色体和线粒体的分型、FST计算、PCA分析、ADMIXTURE分析、ROH计算、自然选择分析(NGS数据)。详细信息,请参考文章数据整合、质控和分析部分的说明。
分析完成后,进行数据库网站的构建,前端采用HTML5、CSS和Bootstrap框架,后端采用Java和SpringMVC框架,数据库服务采用MySQL。为了增强用户体验,使用JavaScript、 jQuery、ECharts、LocusZoom.js对数据进行可视化展示。这里,LocusZoom.js由密歇根大学开发,专门用于GWAS数据的web前端可视化展示。
点击网站上的Statistic栏目查看,数据库收录的数据统计信息。目前,356个种群、7122个基因组、8大地区、107个国家。
交互体验良好的搜索和查询功能,包括了关键字搜索和条件查询。
可视化结果展示,以藏族人为例。A图为藏族人与其他种群的FST值,条形长度表示FST值的大小。B图为藏族人与东亚其他22族群的PCA分析结果。C图为ADMIXTURE祖源分析结果。D图为自然选择信号的结果展示。