专栏名称: VG生信软件
国内首家从事Windows平台、可视化生物信息学桌面软件开发的公司。致力于提供领先的生物信息学软件产品和系统服务。产品和业务包括:微生物多样性分析软件、转录组分析软件、重测序分析软件、细菌基因组分析系统。
目录
相关文章推荐
中国证券报  ·  降费 ·  21 小时前  
证券时报  ·  11连阳后,基金公司发“预警”! ·  昨天  
上海证券报  ·  AI最强黑马!6个交易日涨超260% ·  昨天  
51好读  ›  专栏  ›  VG生信软件

PGG. Population:一个用于了解人类种群遗传多样性和祖源信息的数据库 [NAR. IF=10.2]

VG生信软件  · 公众号  ·  · 2018-01-19 18:00

正文

PGG.Population是2017年11月份发表在Nucleic Acids Research核酸研究杂志上的一篇关于人类种群信息的数据库,文章的通讯作者为中国科学院上海生命科学研究所的徐书华教授。

文章链接为:https://doi.org/10.1093/nar/gkx1032

数据库链接为:https://www.pggpopulation.org/

数据库记录了来自107个国家,在全球范围内具有代表性的356个种群对应的7122个人类基因组信息。在网站上,通过用户友好的可视化工具,可以查看种群间的遗传多样性、种群关系、祖先构成、自然选择、种群历史等信息。整个工作,为了解人类遗传进化、变异、祖源信息、医药临床研究,提供了重要的数据平台。

这里,值得注意的是,除开科学意义重大外,数据库网站采用可视化工具对结果进行展示,视觉效果和用户体验非常优秀。不得不提一句,许多重要的动植物物种已经积累了大量的SNP芯片数据,重测序数据,却缺乏一个对应的群体信息数据库,该文章提供了很好的参考价值。

PGG.Population数据库的数据不仅来自于国际项目(国际单体型图计划、千人基因组计划),还包括本土的测序计划(如藏族人、夏尔巴人)。数据类型包括:Illumina 的SNP芯片结果、Affymetrix的SNP芯片结果、高通量测序数据。详细过程,参考文章数据收集部分的讲解。

接着,对收集好的数据进行整合、分析、质控。采用常见的分析工具,如BWA、GATK、Plink等,从而得到群体SNP的Genotyping结果。利用Genotyping结果,进行Y染色体和线粒体的分型、FST计算、PCA分析、ADMIXTURE分析、ROH计算、自然选择分析(NGS数据)。详细信息,请参考文章数据整合、质控和分析部分的说明。

分析完成后,进行数据库网站的构建,前端采用HTML5、CSS和Bootstrap框架,后端采用Java和SpringMVC框架,数据库服务采用MySQL。为了增强用户体验,使用JavaScript、 jQuery、ECharts、LocusZoom.js对数据进行可视化展示。这里,LocusZoom.js由密歇根大学开发,专门用于GWAS数据的web前端可视化展示。

点击网站上的Statistic栏目查看,数据库收录的数据统计信息。目前,356个种群、7122个基因组、8大地区、107个国家。

交互体验良好的搜索和查询功能,包括了关键字搜索和条件查询。

可视化结果展示,以藏族人为例。A图为藏族人与其他种群的FST值,条形长度表示FST值的大小。B图为藏族人与东亚其他22族群的PCA分析结果。C图为ADMIXTURE祖源分析结果。D图为自然选择信号的结果展示。







请到「今天看啥」查看全文