专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Immunity | ... ·  昨天  
BioArt  ·  Nat Chem Biol | ... ·  2 天前  
BioArt  ·  Neuron | ... ·  2 天前  
生信宝典  ·  国家生物信息中心数据资源部招聘启事 ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

数据库分享 | 中国国家生物信息中心里都有哪些数据资源?

生信菜鸟团  · 公众号  · 生物  · 2024-11-28 06:30

正文

Basic Information

  • 英文标题:Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2024
  • 中文标题:这是中国国家生物信息中心在2024年的全国基因组数据分析中心的数据资源。
  • 发表日期:29 November 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:CNCB-NGDC Members and Partners
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D18/7454122

Abstract

  1. 国家基因组数据中心(NGDC)是中国国家生物信息中心(CNCB)的一部分,它为全球学术界和产业界提供一系列数据库资源。
  2. 随着多组学数据以前所未有的速度迅速积累,CNCB-NGDC通过大数据存档、综合分析和增值策展不断扩展和更新核心数据库资源。
  3. 重要的是,NGDC与主要国际数据库和倡议紧密合作,确保数据交换无缝和互操作性。
  4. 在过去的一年里,大量的努力被投入到整合多样化的组学数据、综合扩展的知识、开发新的资源以及升级主要现有资源。
  5. 特别是,为原生生物(P10K)、细菌(NTM-DB、MPA)以及植物(PPGR、SoyOmics、PlantPan)和疾病/性状关联(CROST、HervD Atlas、HALL、MACdb、BioKA、RePoS、PGG.SV、NAFLDkb)的生物多样性新开发了几种数据库资源。
  6. 所有资源和服务均可通过https://ngdc.cncb.ac.cn公开获取。

Introduction

Para_01
  1. 国家基因组数据中心(NGDC)隶属于中国科学院北京基因组研究所(BIG)、中国科学院(CAS)以及中国国家生物信息中心(CNCB)。
  2. CNCB-NGDC成立于2019年,与中科院下属机构如生物物理研究所和上海营养与健康研究所等开展合作,并与其他组织建立伙伴关系(https://ngdc.cncb.ac.cn/partners)。
  3. 在过去几十年里,高通量技术的进步使研究人员能够以前所未有的速度和准确性同时分析多个层面的生物信息。
  4. 全球范围内开展了大规模的高通量测序项目来研究疾病的遗传基础和揭示复杂的生物学过程。
  5. 像千人基因组计划、癌症基因组图谱和英国生物样本库这样的项目已经产生了来自不同人群和疾病队列的广泛基因组数据集。
  6. 这些数据集为研究遗传变异、鉴定与疾病相关的基因以及探索复杂疾病的分子机制提供了宝贵的资源。
  7. 此外,单细胞测序技术作为一种强大的工具,以前所未有的分辨率研究了细胞异质性、发育过程、疾病机制和复杂的生物系统。
  8. 特别是,空间转录组学技术捕捉到了基因表达模式的空间信息,为理解组织结构、细胞间通讯和肿瘤异质性提供了更深层次的认识。
  9. 因此,多组学数据以越来越快的速度和规模大量产生,这需要开发资源来促进数据整合、互操作性和共享。
Para_02
  1. 随着全球大规模高通量测序项目的迅速增长,CNCB-NGDC已成为收集、整合和管理多种基因组数据集的核心中心。
  2. 在过去的一年里,CNCB-NGDC致力于新资源的开发和现有资源的持续更新,旨在为全球生命与健康科学的进步提供开放获取的一系列资源。
  3. 重要的是,一些核心数据库资源得到了主要出版商的推荐,这极大地促进了生物医学数据的有效提交和开放共享。
  4. 此外,CNCB-NGDC通过镜像NCBI SRA(序列读取档案)的元数据和序列数据,与国际核苷酸序列数据库合作组织(INSDC)建立了紧密的合作关系。
  5. 在本文中,我们简要概述了CNCB-NGDC的新发展和近期更新,重点介绍了其核心资源和服务。
  6. 重要的是,CNCB-NGDC的数据库高度互联,形成了一个全面的网络,使用户可以在数据库之间无缝导航、访问相关信息并进行综合性研究。
  7. 所有这些资源和服务都在支持研究方面发挥着关键作用,并且均可在CNCB-NGDC主页上公开获取(https://ngdc.cncb.ac.cn)
  • 图 1. CNCB-NGDC 的核心数据库资源按不同类别组织。这些数据库资源可通过 CNCB-NGDC 主页 https://ngdc.cncb.ac.cn 公开访问和搜索。全部的数据资源列表见 https://ngdc.cncb.ac.cn/databases。
  • 图 2. CNCB-NGDC 核心数据库之间的连接性。通过生物项目 ID(例如 PRJCA004209)将生物项目、GSA-人类和遗传变异紧密互联,使用户能够轻松地在各数据库之间导航并获取相关信息,包括生物学项目(https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA004209)、基因组信息(https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001552)和遗传变异(https://ngdc.cncb.ac.cn/gvm/getProjectDetail?project=GVM000115)。基于这些信息,用户可以进一步了解到关于特定基因的大量知识,以 TP53 为例,如其在 EWAS Atlas 中的表观遗传学关联(https://ngdc.cncb.ac.cn/ewas/browse?gene=TP53)、在 TWAS Atlas 中的转录学关联(https://ngdc.cncb.ac.cn/twas/genedetail/ENSG00000141510.16),以及在 ASCancer Atlas 中与癌症相关的剪接事件(https://ngdc.cncb.ac.cn/ascancer/search?genename=TP53)。

New developments

Raw data & metadata

原始数据与元数据

GenBase

生成基础

Para_03
  1. GenBase(https://ngdc.cncb.ac.cn/genbase)是一个开放获取的数据存储库,专门用于存档、搜索和共享核苷酸序列。
  2. 它接受多种数据提交,包括mRNA、基因组DNA和非编码RNA,以及小型基因组如细胞器、病毒、质粒和噬菌体。
  3. GenBase提供了一个用户友好的双语提交门户,具有自动验证和人工审核功能。
  4. 其标准化的数据结构和质量控制程序与GenBank相兼容,实现了与INSDC之间的无缝数据交换。
  5. GenBase每天更新GenBank中的所有序列,目前拥有265,969,760条核苷酸序列和268,933,169条蛋白质序列。
  6. 截至2023年8月14日,它已经收到了总计1,103份直接提交,包括来自138个物种的37,981条核苷酸序列和362,296条注释蛋白质序列。
  7. 其中,34,477条核苷酸序列(91%)和340,491条注释蛋白质序列(94%)已经发布并且可公开访问。
  8. 特别是,GenBase已经接收并发布了31,312条SARS-CoV-2基因组序列,并进行了标准化注释。
  9. 总之,GenBase是存档和整合各种核苷酸序列数据的重要资源,为支持全球研究活动提供免费和公开的数据服务。

OBIA

OBIA

Para_04
  1. 开放生物医学影像档案库(OBIA;https://ngdc.cncb.ac.cn/obia)作为存档生物医学图像及相关临床数据的存储库。
  2. OBIA采用五个数据对象(集合、个体、研究、系列和图像)进行数据组织,并接受来自世界各地的生物医学图像提交。
  3. 为了确保数据隐私,OBIA建立了一套标准化的去识别和质量控制流程,并提供了两种数据访问类型:公开访问和受控访问。
  4. 截至2023年8月,OBIA已收录937个个体,4136项研究,24701个系列和1938309张图像,涵盖了9种模式和30个解剖部位。
  5. OBIA通过提供各种模式、解剖部位和疾病的共同DICOM格式的影像数据,从而与其他相关数据库区分开来。
  6. 此外,OBIA支持元数据检索和图像检索。
  7. 重要的是,OBIA与国家基因组数据中心(NGDC)的BioProject条目及GSA-Human中的个人条目建立了内部链接,便于用户不仅能够获取生物医学图像和临床数据,还能轻松获得多组学数据。

OPIA

OPIA

Para_05
  1. 开放植物图像档案库(OPIA,https://ngdc.cncb.ac.cn/opia/)是一个开放的植物图像和表型性状(i-性状)档案库,源自高通量表型平台。
  2. 目前,OPIA 收录了跨越 11 种植物的 56 个数据集,总共包含 566 225 张图像和 2 417 186 个标注实例。
  3. 它还整合了来自 3 个数据集的 18 644 张单个 RGB 图像中提取的 56 个基于图像的 i-性状。
  4. 这些 i-性状使用植物表型与性状本体(PPTO)进行注释,并与 GWAS 地图交叉链接。
  5. 此外,OPIA 中的每个数据集都分配了一个评估分数,该分数考虑了诸如图像数据量、图像分辨率以及标注实例数量等因素。
  6. OPIA 还提供了用于在线图像预处理和提交的有用工具。
  7. 总体而言,OPIA 提供了对多种植物宝贵数据集和表型性状的开放访问,因此具有巨大的潜力,在促进人工智能辅助育种研究方面发挥关键作用。

Single-cell omics

单细胞组学

CROST

交叉验证回归和排序技术

Para_06
  1. CROST(https://ngdc.cncb.ac.cn/crost)是一个综合性的空间转录组学资料库。
  2. 它包含了来自5种技术平台、8个物种和56种疾病的182个空间转录组学数据集,其中包括1033个高质量样本。
  3. 在这些数据集中共鉴定出48043个与肿瘤相关的空间可变基因(SVGs)。
  4. 此外,它还包括了一个标准化的空间转录组数据处理流程,整合了反卷积空间转录组学数据,并进行了相关性、共定位、细胞间通讯及生物学功能注释分析。
  5. 而且,CROST整合了转录组、表观基因组和基因组数据来研究与肿瘤相关的SVGs,为探究它们在癌症进展和预后中的作用提供了全面的见解。
  6. 此外,CROST还提供了两种在线工具:单样本基因集富集分析(ssGSEA)和SpatialAP,使用户能够标注和分析上传的空间转录组学数据。
  7. 总之,CROST为组织结构提供了新的且全面的认识,并为理解多种疾病中的生物机制,特别是在肿瘤组织中,奠定了基础。

Expression

表达式

SMDB

SMDB

Para_07
  1. SMDB(https://www.biosino.org/smdb)是一个必不可少的数据库,它全面且交互地促进了空间转录组学(ST)数据的探索和理解。
  2. 其多模态整合和可定制的工作空间为研究者提供了一个强大而灵活的平台,用于探究空间数据与生物功能之间的复杂关系。
  3. 在二维层面,SMDB能够对切片进行分割并识别基因表达边界。
  4. 研究者可以利用加载的图像和分子簇分析组织成分。
  5. 在三维层面,研究者可以根据特定需求筛选点位,并重建形态可视化。
  6. SMDB还提供了可定制的工作空间,支持交互式探索。
  7. SMDB预加载了来自著名艾伦研究所的艾伦小鼠脑公共坐标框架(CCFv3),作为研究小鼠大脑的宝贵参考,为研究者快速获取相关信息提供了便利。

Health and disease

健康与疾病

HervD Atlas

赫尔夫迪阿特拉斯

Para_08
  1. HervD Atlas(https://ngdc.cncb.ac.cn/hervd/)是一个知识库,整合了从大量出版物中精心挑选的人类内源性逆转录病毒(HERV)与疾病关联。
  2. 目前,HervD Atlas 收集了来自 238 篇出版物的 57,253 条精选 HERV-疾病关联,涵盖了 19,274 种 HERVs(包括 18,535 个 HERV 术语和 739 个 HERV 元素),这些属于六种类型。
  3. 该知识库还包含了被分为 14 类别的 148 种本体疾病以及 605 个受影响或相关的基因。
  4. 它具有一个交互式知识图谱,以可视化方式表示 HERV-疾病关联及其对应基因的关系网络,使研究人员能够高效地访问和探索感兴趣的数据。
  5. HervD Atlas 是一个宝贵的资源和强大的平台,拥有全面的 HERV-疾病知识,有助于我们理解 HERV-疾病关联,并促进 HERVs 作为新型诊断和治疗策略的发展。

HALL

大厅

Para_09
  1. HALL(人类衰老与长寿景观;https://ngdc.cncb.ac.cn/hall/)是一个专注于研究人类衰老和长寿的专用数据库中心。
  2. 它提供了一个专门且全面的多维度数据集集合,这些数据集来源于各种人群队列。
  3. HALL整合了来自23个国家/地区的170个人群队列,包括1913个单核苷酸多态性(SNPs)、38种组织/细胞类型以及超过480万人,年龄跨度从1岁到119岁,其中包含59个百岁老人队列。
  4. HALL具有基因组浏览器功能,内含485,512个表观遗传学探针,为揭示与年龄相关的甲基化变化提供了洞察。
  5. 已经整理出了5261个随年龄变化的基因的转录组,涉及总共3188名人体对象,跨越13种组织。
  6. HALL建立在Aging Biomarker Consortium(ABC,衰老生物标志物联盟)的基础上。
  7. 其全面监测与年龄相关变化的框架作为开发新标志物、诊断工具及应对衰老和与年龄相关条件策略的平台。

MACdb

MAC数据库

Para_10
  1. MACdb (https://ngdc.cncb.ac.cn/macdb/) 是一个经过整理的知识库,记录了代谢物与癌症之间的代谢关联。
  2. 在当前实现中,MACdb 已整合了 40,710 条癌症-代谢物关联,涵盖了 17 类高发或高死亡率癌症中的 267 种特征。
  3. 这些关联是通过精心的手工整理从 1,127 项研究中获得的,这些研究发表在 462 篇出版物上。
  4. MACdb 提供了用户友好的浏览功能,允许用户从多个维度探索关联,如代谢物、特征、研究和出版物。
  5. 此外,它构建了一个知识图谱来展示癌症、特征和代谢物之间关系的整体景观。
  6. 此外,MACdb 提供了 NameToCid 工具,该工具将代谢物名称映射到 PubChem CIDs,并提供了富集工具,有助于丰富不同癌症类型和特征与代谢物之间的关联。
  7. MACdb 作为一个信息丰富且实用的资源,对于评估癌症-代谢物关联具有重要意义,有可能加速癌症代谢方面的假设生成和研究进展。

NAFLDkb

非酒精性脂肪肝疾病知识库

Para_11
  1. NAFLDkb (https://www.biosino.org/nafldkb) 是一个专门的知识库和计算机辅助药物设计平台,针对非酒精性脂肪肝病 (NAFLD)。
  2. NAFLD 结合了来自公共资源的多角度信息,包括源数据、背景知识和候选库。
  3. 源数据包括 40 433 篇研究文章和 1 001 项临床试验。
  4. 背景知识包含 581 种研究药物、17 种治疗策略、45 个治疗靶点、17 种相关疾病、8 条关于发病机制的记录以及 68 个 NAFLD 的体内外模型。
  5. 候选库由 1 608 种再定位候选物、147 604 种生物活性化合物、34 419 种 CMap 候选物和 17 704 种天然产物组成,用于 NAFLD 药物开发。
  6. 药物相关实体之间的关系通过知识图谱展示,而人工智能驱动的工具提供了化学结构搜索、药物相似性筛选、基于知识的再定位以及研究文章注释等功能

BioKA

BioKA

Para_12
  1. BioKA(https://ngdc.cncb.ac.cn/bioka)是一个综合性的动物疾病/性状生物标志物知识库,包括模式动物、家养动物以及人类。
  2. 我们收集了生物标志物,并整合了各种注释,如基因本体论术语(GOs)、蛋白质结构、蛋白质-蛋白质相互作用网络、miRNA靶标、代谢细节、表达情况、变异和同源基因,集成在一个单一的网络平台上。
  3. BioKA支持跨物种研究,并为浏览、检索、比较和下载提供了免费的公共数据服务。
  4. 目前,BioKA收录了来自4747篇参考文献的31种物种中与951种已映射疾病/性状相关的16296个生物标志物。
  5. 这些包括11925个基因/蛋白质生物标志物、1784个miRNA生物标志物、1043个突变生物标志物、773个代谢生物标志物、357个环状RNA生物标志物和127个长链非编码RNA生物标志物。
  6. 此外,BioKA构建了一个包含10种物种中的7320个实体和401208条链接的交互式知识网络。
  7. 另外,BioKA提供了13种物种中308种品系/菌株的详细信息,以及16种物种中8784个生物标志物的同源注释,并提供了三种在线应用工具。
  8. 总之,BioKA推动了人类疾病的研究,有助于理解动物疾病,并支持畜牧业育种。

Genome and variation

基因组与变异

RePoS

RePoS

Para_13
  1. RePoS(近期正向选择数据库,http://bigdata.ibp.ac.cn/RePoS/)是一个新开发的数据库,它整合并展示了针对中国及全球人群的近期正向选择信号数据。
  2. 该数据库旨在加深我们对在人类进化过程中经历正向选择的基因和性状的理解,为我们提供关于人类历史以及当今仍在困扰我们的疾病的见解。
  3. RePoS利用SDS和iHS等数据,如NyuWa全基因组测序、TOPMed、千人基因组计划和UK10K的数据,研究多个群体的基因组序列的选择痕迹,并阐明与单基因和多基因性状相关的表型进化。
  4. 总共集成了来自五个数据集的2270万个非冗余变异体。
  5. 总之,RePoS旨在促进对全球人群的人类进化和表型适应的研究。

TargetGene

目标基因

Para_14
  1. TargetGene (https://ngdc.cncb.ac.cn/targetgene/) 是一个人类遗传变异靶基因的综合性资源。
  2. 它利用多种分析工具,如染色质共可及性、三维相互作用、增强子活性和数量性状位点,建立起遗传变异与其靶基因之间的联系。
  3. 该资源整合了从单细胞和整体水平获取的经过精心整理的多组学数据,涵盖了各种人体组织、细胞类型、发育阶段以及超过一千个全基因组关联研究(GWAS)的数据集。
  4. 目前,TargetGene 包含了根据1276个 GWAS 数据集中574 279个与特征相关的遗传变异推断出的23 838个靶基因,涉及45种组织和539种细胞类型。
  5. TargetGene 提供了用户友好的网络界面,帮助用户系统地识别和优先考虑与特征相关的靶基因。
  6. 总之,TargetGene 是一个宝贵的资源,有助于理解复杂疾病背后的遗传机制,并识别潜在药物靶标。

PGG.SV

PGG.SV

Para_15
  1. PGG.SV(https://www.biosino.org/pggsv)是一个开创性的数据库,利用了次世代和第三代全基因组测序技术。
  2. 当前版本的PGG.SV涵盖了来自6048个样本的大规模数据集,包含584 277个结构变异(SVs),其中包括来自177个全球人群的1030个长读长测序基因组。
  3. 值得注意的是,PGG.SV提供了高质量、精细尺度的结构变异,这些变异映射到了GRCh37和GRCh38人类参考基因组上。
  4. 这包括使用传统测序和微阵列数据难以检测到的先前代表性不足的结构变异。
  5. 该数据库展示了在不同地理人群中结构变异的层次性估计,并提供了与结构变异相关的基因、潜在功能及临床意义的宝贵注释。
  6. 此外,它还提供了一个易于导航的界面以及强大的可视化工具,用于整个基因组的结构变异映射。

Biodiversity

生物多样性

PlantPan

PlantPan

Para_16
  1. PlantPan(https://ngdc.cncb.ac.cn/plantpan/)是一个综合性数据库,包含来自11种植物的195个基因组的泛基因组分析结果。
  2. PlantPan提供了五个方面的详细见解:物种、基因、基因簇、基因组变异和基因组共线性。
  3. PlantPan包括九个图形泛基因组、9127208个基因、694191个基因组、413000124个基因组变异、1616089个基因组变异组、3345098个基因组共线性和177827个基因组共线性组。
  4. 每个基因组都被赋予了功能注释,例如GO注释、蛋白质功能域、23类KEGG途径、58类转录因子、有机和无机抗性以及与其他物种中的同源基因。
  5. 总之,PlantPan作为一个宝贵的资源,有助于提高植物泛基因组在分子育种和进化研究中的应用价值。

NTM-DB

NTM-DB

Para_17
  1. NTM-DB(非结核分枝杆菌数据库;https://ngdc.cncb.ac.cn/ntmdb)是一个公共数据库,整合了最全面的非结核分枝杆菌(NTM)基因组和生物信息学资源。
  2. 它总共包含了12,748个新组装的全基因组和3,335个GenBank/RefSeq组装,覆盖了190种NTM物种中的177种。
  3. 值得注意的是,NTM-DB集成了705个多位点序列分型(MLST),包括189个代表菌株基因组(代表177个物种和12个亚种)和181个代表性基因组。
  4. 该数据库还涵盖了33,240个耐药基因、7,152项药物敏感性测试和74,315个毒力基因。
  5. 此外,NTM-DB提供了一个在线分析平台,用于基因分型、耐药性和毒力基因注释,以及泛基因组和系统发育分析。
  6. 总体而言,NTM-DB是针对NTM研究社区的一个全面且创新的平台,具有潜在的帮助临床医生诊断和治疗各种NTM相关疾病的可能。

SoyOmics

SoyOmics

Para_18
  1. SoyOmics(https://ngdc.cncb.ac.cn/soyomics)是一个为大豆设计的综合多组学数据库,旨在为大数据挖掘提供一站式解决方案。
  2. 当前版本的特点是全面整合高质量的组学数据,包括组装基因组、图谱泛基因组、代表性种质资源的表型数据、不同组织、器官和品系的转录组及表观基因组数据,以及定量性状位点和全基因组关联研究的知识。
  3. 此外,还配备了几种常用的易于使用的工具包,用于序列比对(BLAST)、快速启动的全基因组关联分析(easyGWAS)、基因表达模式分析(ExpPattern)、单倍型分析(HapSnap)、基因组位置转换(VersionMap)和序列提取(SeqFetch)。
  4. 更重要的是,开发了一个名为SoyArray的模块,用于比较两个种质资源之间的差异位点,这对遗传或育种研究中的亲本选择很有帮助。
  5. 综上所述,SoyOmics对于从基础研究到分子育种的深度挖掘具有极大的实用性。

The P10K database

P10K数据库

Para_19
  1. P10K数据库(https://ngdc.cncb.ac.cn/p10k/)是原生生物10000基因组项目(P10K)的数据门户。
  2. 该项目旨在解决原生生物物种已发表基因组资源有限的问题,原生生物作为与真菌、动物和植物分离的多样化微观真核生物,在生物圈中发挥着重要作用。
  3. 由此产生的P10K数据库作为一个综合性平台,汇集并传播来自不同原生生物类群的基因组序列及其注释。
  4. 目前,P10K数据库包含2929个基因组和转录组,其中包括由P10K新测序的1096个数据集和1833个公开可用的数据集。
  5. 它覆盖了大约45%的原生生物目,特别侧重于纤毛虫,几乎涵盖了近一千个基因组/转录组,代表了53%的覆盖率。
  6. 总体而言,P10K数据库作为原生生物研究中不可或缺的遗传资源库,旨在通过整合更多测序数据和高级分析工具进一步扩展,惠及全球范围内的原生生物研究。

MPA

MPA

Para_20
  1. MPA(Mycobacteriaceae Phenome Atlas,https://www.biosino.org/mpa/)是基于异构来源的Mycobacteriaceae表型图谱标准化资源。
  2. MPA总共收录了来自236个种和18个亚种的10 755株菌的82种微生物表型特征。
  3. 这些特征进一步被分类为五个大类和20个子类的多相性表型,以及三个大类和八个子类的功能性表型。
  4. 这些表型可以从MPA网站进行搜索和比较。
  5. MPA的应用可能为Mycobacteriaceae的致病机制和抗微生物靶点提供新的见解。

PPGR

PPGR

Para_21
  1. PPGR(Perennial Plant Genomes and Regulation database,网址:https://ngdc.cncb.ac.cn/ppgr/)是一个致力于探索多年生植物基因组学和基因调控的公共数据库。
  2. 该资源覆盖了来自60种植物的数据,具有丰富注释的基因组信息,包含8亿3千6百万条蛋白质-蛋白质及转录因子-靶标相互作用记录,以及代表不同环境条件和遗传背景的8975个转录组样本。
  3. PPGR的主要关注点集中在调控多年生植物关键过程的基因上,例如木材生产、休眠、萜类生物合成和叶片衰老。
  4. 数据来源包括实验研究、文献挖掘、公共数据库和基因组预测。
  5. 凭借其用户友好的多组学工具集,PPGR将极大地促进更广泛的植物科学界的发展,其益处远不止于木质多年生植物的研究领域。

Recent updates

Raw data & metadata

原始数据与元数据

BioProject and BioSample

生物项目和生物样本

Para_22
  1. BioProject(https://ngdc.cncb.ac.cn/bioproject)和 BioSample(https://ngdc.cncb.ac.cn/biosample)分别是生物研究项目和样本的两个公共存储库。
  2. 它们收集了实验中研究的生物项目和样本的描述性元数据,并提供了对所有公共项目和样本的集中访问,以及与相关数据资源的交叉链接。
  3. 截至2023年8月,BioProject 和 BioSample 已经汇集了共计13,487个生物项目和1,244,954个生物样本,这些样本由来自1,549个机构的6,438名用户提交(图3A)。
  4. 这相比前一次在9月份发布的版本有了显著增长,当时共有7,906个项目和783,267个样本。
  5. 此外,今年这两个存储库已经从NCBI的INSDC数据中镜像了709,261个项目和34,622,211个样本。
  • 图 3. 提交至 CNCB-NGDC 的数据统计。(A) BioProject 和 BioSample 的数据统计。(B) GSA 中的实验和运行的数据统计。(C) GSA 中的数据增长时间线。(D) GWH 中的基因组组装统计。所有统计数据均定期更新,并可在 https://ngdc.cncb.ac.cn/bioproject、https://ngdc.cncb.ac.cn/biosample 和 https://ngdc.cncb.ac.cn/gsa 以及 https://ngdc.cncb.ac.cn/gwh 公开获取。

GSA, GSA-Human and OMIX

GSA、GSA-Human 和 OMIX

Para_23
  1. 基因组序列档案库(GSA;https://ngdc.cncb.ac.cn/gsa)是一个存放原始测序读取数据的档案数据库,为全球用户提供数据提交、数据存储和数据共享的免费开放服务。
  2. 人类基因组序列档案库(GSA-Human;https://ngdc.cncb.ac.cn/gsa-human)是 GSA 的一个子数据库,专门存放具有受控访问权限和安全服务的人类遗传组学数据。
  3. 截至2023年8月,GSA 和 GSA-Human 共同积累了1,032,023次实验、1,232,648次运行以及总计29.6 PB的数据,显示出数据量的指数级增长。
  4. 此外,GSA 已整合了来自 NCBI SRA 的 INSDC 数据中的25,695,978次实验、27,360,390次运行以及4.5 PB的序列文件。
  5. 多类型数据开放档案库(OMIX;https://ngdc.cncb.ac.cn/omix)作为 GSA 家族的一员,严格遵循 FAIR 原则,为用户提供了一个可发布可引用、可共享且可发现的基于组学的研究成果平台。
  6. 截至2023年8月,OMIX 已归档了3,384份提交和15,837个文件,总大小为59.34 TB。
  7. 大约40%的数据文件与人类遗传资源相关,这些资源以受控访问模式安全共享,用户需要提交简单的申请才能获取访问权限

Database commons

数据库常识

Para_24
  1. 数据库通用库(https://ngdc.cncb.ac.cn/databasecommons)是一个全球性的生物数据库目录,它提供了对全世界生物数据库的全面集合进行简便访问和检索。
  2. 它评估了数据库的影响,并提供了有价值的统计数据和趋势。
  3. 目前,它收录了来自世界各地的总共 6354 个数据库,涵盖了 9808 篇出版物,并涉及约 2100 个机构。
  4. 这与 2022 年 8 月的上一个版本相比有所增长,当时收录了 5831 个数据库和 8933 篇出版物。
  5. 大多数数据库都由专业管理员进行了整理。
  6. 就数据库功能更新而言,自 2022 年下半年起,数据库通用库开始接受来自世界各地不同机构和大学的开放提交。
  7. 特别是针对当前研究热点和前沿领域的数据库被特别整理。
  8. 例如,编制了一个全面收集长链非编码 RNA 数据库的集合,以促进对该领域的广泛回顾。
  9. 此外,还新整理了关于 SARS-CoV-2、水稻、单细胞、空间组学以及免疫研究的数据库。
  10. 通过点击搜索框下方相应的链接即可轻松访问这些数据库

Genome and variation

基因组与变异

Genome warehouse

基因组仓库

Para_25
  1. 基因组仓库(GWH;https://ngdc.cncb.ac.cn/gwh)是一个有价值的公共资源,用于托管基因组序列、注释和元数据。
  2. 截至2023年8月,提交的基因组组装数量显著增加到66,435个,相比2022年9月的24,781个有所增长。
  3. 其中,来自1,511个物种的19,350个基因组组装已发布,并发表在278篇期刊文章中,与2022年9月的12,887个组装和206篇文章相比有所增长。
  4. GWH最近的数据扩展是由宏基因组组装基因组(MAGs)和分箱宏基因组驱动的。
  5. 值得注意的是,此次更新包括几项改进,例如整合了来自INSDC的1,782,915个组装,从而增强了本地可搜索性、可浏览性和下载能力,并为每个组装提供了详细信息页面。
  6. 重要的是,GWH通过引入数据请求管理系统得到了增强,这有助于数据所有者和寻求受控访问数据的申请者之间的沟通。
  7. 此外,它还配备了一个高级搜索系统,可以实现分类搜索和过滤,从而提高了存档和整合基因组数据的可访问性。
  8. GWH的持续扩展和改进使其成为推动全球基因组学研究的宝贵资源。

Health and disease

健康与疾病

RCoV19

RCoV19

Para_26






请到「今天看啥」查看全文