号外号外:测序数据可以上传 到国家基因组科学数据中心(NGDC),是CNCB(China National Center for Bioinformation,国家生物信息中心)牵头的 咱中国人自己的数据库中心,直接替换美国的NCBI。
由于其相比于NCBI,很多功能并未被许多学者所熟知,因此,这里我们带大家了解一下这一数据的使用!我们早期也在
生信技能树和生信菜鸟团公众号
演练过它的一些数据分析实战:
一、官方网址
https://ngdc.cncb.ac.cn/gsub/
二、注册用户
点击register,进入注册界面,如果你找不到,那么直接进入这个网址:
https://ngdc.cncb.ac.cn/account/register?service=https://ngdc.cncb.ac.cn/gsub/account/casregister
如实填写即可(注:全部是英文填写,以及邮箱必须可以收到邮件,下一步需要验证)。提交注册后,24h内在邮箱上确认一下就可以了。
三、登陆
注册完成后,返回主页面登陆账号(https://ngdc.cncb.ac.cn/sso/login?service=https://ngdc.cncb.ac.cn/gsub/login):
四、上传数据
点击Genome Sequence Archive,进入数据上传界面
4.1 创建BioProject
首先点击“BioProject提交入口”,创建BioProject文件。
点击“新建BioPrject“,在这里可以修改相关信息,系统默认是你注册时的信息,修改后点击保存 并进入下一步。
五步内容填写完毕后点击提交,提交以后的状态如下图所示。
更多具体操作,请查看BIG Sub的使用说明(https://ngdc.cncb.ac.cn/gsub/document/BIG%20Sub-BIG_Submission_Quick_Start_Guide_2.2_cn.pdf),目录如下:
4.2 创建BioSample (多个生物学样本)
点击“新建BioSample”(https://ngdc.cncb.ac.cn/gsub/submit/biosample/list),进入BioSample创建界面。
根据提示依次填写信息,但值得注意的是,在批量样本提交(Batch BioSamples)模式(推荐)下需要我们上传样本的汇总新表。
不会填写的话,先下载案例,案例非常清晰,基本不会出现问题。
填写完成后,点击提交即可。
4.3 提交GSA数据(原始RNA-seq)
完成BioProject和BioSample申请后,可开始上传GSA数据库。准备好原始数据,一般以.gz或者.bz2为后缀。首先返回BIG Sub, 再次选择Genome SequenceArchive,进入原始数据上传界面:
新建GSA
根据提示,依次填写内容。在第三步需要上传元数据文件信息。我们现将填写模版和案例下载下来。
Experiment中的信息填写:
第一列ID必须是以E字母开头的,例如E1、E2、E3......;
第二列 Experiment title 为各测序样本的名称;
第三列 BioProject accession是与BioProject建立联系,填写第一步申请通过的PRJCAxxxxx号;
第四列 Biosample name必须与申请Biosample的sample_name一致;
其他列 根据测序平台或提示信息对应填写。
Run中测序文件和MD5码信息录入:
Illumina平台测序数据格式一般都为fastq文件(支持gzip和bzip2压缩格式)。MD5校验一般测序后公司会给到我们MD5这一软件,我们只需导入测序原始数据,即可自动生成MD5码。
数据准备后即可上传,上传后点击“校验”,查看数据上传是否成功:
如果哪一列所填信息不正确,系统会识别出来,并给出错误提示,我们按照这个提示将表格信息补充全即可。
下一步,选择上传方式,这里我们选择FTP方式上传数据。
① 勾选FTP选项,并记录FTP上传提示。
②建立连接。
打开软件,填写主机信息为“submit.big.ac.cn”,用户名和密码与GSA数据库的登陆帐号邮箱和密码一致。点击“快速连接”,状态栏显示登陆成功。