专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
BioArt  ·  Nature | ... ·  昨天  
生物学霸  ·  45 岁讲师评副教授差 0.1 ... ·  4 天前  
51好读  ›  专栏  ›  生信人

手把手教学:原始数据如何上传到NCBI

生信人  · 公众号  · 生物  · 2024-12-23 07:00

主要观点总结

该文章提供了将测序数据上传到NCBI的详细步骤,包括注册NCBI账号、准备上传的原始数据、填写并提交相关信息、使用Aspera上传文件等。

关键观点总结

关键观点1: 上传测序数据到NCBI的步骤

文章详细描述了从注册NCBI账号开始,准备原始数据,填写并提交各种信息,包括SRA文件汇总信息,使用Aspera或其他方式上传文件等步骤。

关键观点2: 测序数据上传的注意事项

文章指出在上传过程中需要注意的一些事项,如所有文件应放在同一个目录下,避免多层目录,填写信息时的必填和选填项目等。

关键观点3: 使用Aspera进行文件上传的方法

文章介绍了Aspera的安装和设置,以及如何下载key file并使用Aspera命令进行文件上传。

关键观点4: 直播活动和最新文章汇总的介绍

文章最后提到了生信人的直播活动和最新文章汇总,包括神经免疫、肺癌研究、基因组学课程等话题。


正文

现在很多文章发表要求一定要上传原始测序数据,今天手把手教学下如何将自己的测序数据上传到NCBI。


注册NCBI账号

注册网站https://www.ncbi.nlm.nih.gov/account/


准备上传的原始数据

原始数据以gz或者其它形式压缩,所有数据放到同一个目录下,不要套多层目录

填写数据信息并上传文件

创建新的submission

进入NCBI首页(https://www.ncbi.nlm.nih.gov/),操作如下:

①选择SRA

②点击Search

③点击Submit to SRA

④点击New submission

填写提交者信息(Submitter)

按照要求填写,*为必填选项。填写完成后点击Continue。

填写一般信息(General Information)

如果是第一次提交BioProject和BioSample都选择No,Release data(释放数据的时间)建议选择比较晚的日期,避免数据过早发布,选择早了也没关系提交以后可以修改。填写完成后点击Continue。

填写项目信息(Project Info)

需要填写项目标题、项目描述、项目是否登记过,如果是第一次提交选择No,*为必填选项,其它部分选填(可以不填)。填写完成后点击Continue。

填写样本类型(Sample Type)

根据实际情况选择,比如小鼠样本就选择Model organism or animal,人源样本就选择Human。填写完成后点击Continue。

填写样本属性(Attributes)

可以选择使用内置表格编辑器,或下载Excel和TSV模版填写后上传,推荐后者。

下载的示例表格如下:

绿色为必填项,蓝色为选填项(至少选填一个),黄色为可选项(可以空着)。如果研究中不涉及选项相关的信息,可以填写'not collected'、'not applicable'或者'missing'。样本名称要保持唯一。

填写完成以后点击Choose file上传,然后点击Continue。如果填写的信息不符合要求会出现一些错误信息提示,根据提示信息修改表格对应位置的信息,Delete原来上传的文件,再重新上传更新后的文件,点击Continue(此过程可以反复修改,直到进入到下一步)。

填写SRA文件的汇总信息(SRA Metadata)

同样可以选择使用内置表格编辑器,或者下载Excel模版填写后上传,推荐后者。

下载的示例表格如下:

蓝色为必填项,绿色为可选项,黄色背景部分的列有下拉菜单,可以从下拉菜单中进行选择,每一个选项的填写要求如下:

  • sample_name:样本名称,应该与前一个表格(Attributes)中的 sample_name 项名称相同。

  • library_ID:文库ID,必须是唯一的,不能重复。

  • title:数据集的简短描述,格式为 {methodology} of {organism}: isample info,例如RNA-seq of mus musculus:sample1。

  • library_strategy:文库策略,如 RNA-Seq。

  • library_source:文库来源,如 TRANSCRIPTOMIC SINGLE CELL。

  • library_selection:文库选择,如 cDNA。

  • library_layout:文库设计,single 或 paired。

  • platform:测序平台,如 ILLUMINA。

  • instrument_model:仪器型号,如 Illumina HiSeq 4000。

  • design_description:设计说明,用于创建测序文库的方法的自由格式描述,简短的"材料和方法"部分。

  • filetype:文件类型,如 fastq。

  • filename:文件名,如 sample1_R1_001.fastq.gz(这里需要注意,最终上传的测序文件要与这里是一致的)。

  • filename2:文件名2,如双端测序的第二个文件 sample1_R2_001.fastq.gz。

  • assembly:组装,仅当您提交针对 NCBI 组装的 BAM 文件时需要,请提供 NCBI 名称或注册号(例如GRCH37)。

  • fasta_file:fasta 文件,仅当您提交针对 NCBI 组装的 BAM 文件时需要,提供比对过程中使用的自定义组装 fasta 文件的名称(例如 Mouse.fasta)。

填写完成以后点击Choose file上传,然后点击Continue。


上传文件(Files)

三种上传方式,一般测序的原始文件比较大,建议FTP或者Aspera上传。

由于原始数据通常很大,一般存储在Linux服务器中,因此我这里使用Aspera命令行上传。


Aspera安装以及设置

官网下载对应的压缩包https://www.ibm.com/products/aspera/downloads

mkdir Asperacd Aspera# 解压下载的压缩包tar xvf ibm-aspera-connect_4.2.12.780_linux_x86_64.tar.gz# bash环境下安装bash ibm-aspera-connect_4.2.12.780_linux_x86_64.sh# 添加环境变量echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrcsource ~/.bashrc# 测试是否设置成功ascp

下载key file

NCBI页面会提供每个SRA提交对应的key file,点击链接下载。

使用Aspera命令上传

命令行如下:

ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> [email protected]:uploads/xxxxx_ImC0bf5y

其中

为下载的key file路径,要使用绝对路径

为上传的测序数据文件夹,要使用绝对路径,文件夹里面包含SRA Metadata中的所有filename,文件夹下面直接包含所有文件,不要套目录

subasp@upload.ncbi.nlm.nih.gov:uploads/xxxxx_ImC0bf5y

为上传的路径,页面有提供,直接复制黏贴即可,每个提交都不一样


检查并提交(REVIEW & SUBMIT)

检查前面填写的内容,如果没有问题点击Submit提交,有问题的话可以联系NCBI进行修改。


好啦,这就是数据上传到NCBI的全部流程啦~


生信人最近举行了两场直播活动,小伙伴们在直播间热情高涨,应大家的呼声:

生信人第三场直播又双来了!如果你想发高分,还想少走些弯路,一定要来看嗷,向阳老师直播间在线经验分享!

扫码预约,精彩不错过!咱们圣诞节直播间见



最新文章汇总(持续更新ing)


最新热点方向

1、去年才出的review,今年就有顶刊了——神经免疫

2、医之侠者:中国肺癌领军人物吴一龙

3、陈志坚成果汇总|大概率是华人下一位诺奖获得者

4、《Nature》中肠道菌群研究的正确打开方式

5、这文章才十来分,是被nature撤稿影响了吗?


生信人课堂

1、多组学水平的孟德尔随机化分析套路

2、单细胞+空转王炸组合,探索骨骼肌纤维化巨噬细胞

3、以小博大,紧张刺激:肿瘤耐药研究,从基因到网络

4、零基础入门-单细胞课程

5、史上最全格局打开,细讲基因组学,确定不来学学?


课题设计 | 生信分析 | 数字产品

概普生物 让科研丰富

生信人

专注于基因技术相关知识分享
扫码关注 获取更多






END