专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Cell | ... ·  2 天前  
生信人  ·  全面绘制:脂质在衰老过程中的变化 ·  3 天前  
BioArt  ·  Nature | ... ·  3 天前  
BioArt  ·  Nature | ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

GSA受控数据下载

生信菜鸟团  · 公众号  · 生物  · 2025-02-11 20:44

正文

工欲善其事 必先利其器


国家生物信息学中心(National Bioinformatics Center, NBC)下的GSA(Genetic Sequence Archive,基因序列档案)数据库是一个面向全球的基因组数据存储、管理和共享平台。它主要用于收集、存储和共享基因组、转录组、表观组等相关的生物学数据,尤其是在中国及亚太地区的基因组数据方面有着重要作用。虽然是公共数据库,但其数据有完全公开的数据,也有受控数据,因此下载起来会有区别。

完全公开数据

公开数据示例
公开数据示例

完全公开的数据下载起来相对多样,你可以选择FTP链接、Aspera命令行或者EdgeTurbo,之前我们也介绍过 使用aspera加速从中国的GSA数据库下载测序文件

受控数据

而对于受控数据,通常就没有这些公开链接可以下载。

受控数据示例
受控数据示例

对于受控数据需要使用者先申请,获得授权后,下载下来的数据集信息(xlsx文件)也不包含FTP链接。但下载说明显示可以使用FileZilla登录账号来下载。

image.png

image.png

但这种方法,下载起来无疑是费时费力的(因为要下载到本地,再上传到自己的远程服务器,如果数据量很大,这么一折腾,耗时将会超级加倍)。既然可以FileZilla登录下载,那么理论上我们可以拼凑一个FTP的下载路径,直接提交到服务器下载。

前面也介绍过使用 wget 命令下载FTP链接的数据 CNGBdb — 国家基因库生命大数据平台之数据下载

screen -R wget
##单文件下载
wget -c -nH --cut-dirs=2 --ftp-user=yourusername --ftp-password=yourpassword ftp://human.big.ac.cn/HRA003312/HRR794438/HRR794438.tar.gz

#
#整个数据集下载
wget -c -r -np -nH --cut-dirs=1 --ftp-user=yourusername --ftp-password=yourpassword ftp://human.big.ac.cn/HRA003312/

-c #断点续传  
-r #递归下载  
-np #递归下载时不搜索上层目录  
-nH #不创建主机目录  
--cut-dirs: #这个选项后面跟一个数字,表示在下载的文件路径中去掉前多少层目录
数据集下载示例
数据集下载示例

速度差强人意,不知道大家有木有更简便的下载方式,可以留言交流。

wget 其余可选参数

-P #指定下载文件保存的目录
-q #安静模式
-v #详细模式
-i [file] #从文件读取URL,可以从文件中读取多个 URL 批量下载
-nd #不创建目录结构,直接将所有文件下载到当前目录
-A [extension]  #指定接受的文件类型,用于只下载特定类型的文件
-R [extension] #拒绝特定类型的文件,用户排除某些特定类型的文件
-H #跨主机下载,在递归下载时,-H 选项允许 wget 跨多个主机下载文件。例如,如果网页上有链接到不同服务器的资源,-H 会下载这些资源。
--limit-rate=[rate] #限制下载速度,避免占用过多带宽
--wait=[seconds] #设置每次下载之间的等待时间,以避免对服务器造成过大的负担
--waitretry=[seconds] #在下载失败后,设置重试的间隔时间
--timeout=[seconds] #设置连接超时时间、
--timestamping #基于时间戳下载,确保仅下载文件在服务器上更新的文件。如果文件的时间戳未更改,则不会重新下载。
--no-check-certificate #跳过SSL证书验证
--show-progress #显示进度条,默认显示。

#
#如果是HTTP链接需要用户名和密码
--user=[username] #指定用户名
--password=[password] #指定密码










请到「今天看啥」查看全文