GSA受控数据下载

生信菜鸟团 · 公众号 · 生物 · 2025-02-11 20:44

正文

工欲善其事必先利其器

国家生物信息学中心（National Bioinformatics Center, NBC）下的GSA（Genetic Sequence Archive，基因序列档案）数据库是一个面向全球的基因组数据存储、管理和共享平台。它主要用于收集、存储和共享基因组、转录组、表观组等相关的生物学数据，尤其是在中国及亚太地区的基因组数据方面有着重要作用。虽然是公共数据库，但其数据有完全公开的数据，也有受控数据，因此下载起来会有区别。

完全公开数据

完全公开的数据下载起来相对多样，你可以选择FTP链接、Aspera命令行或者EdgeTurbo，之前我们也介绍过使用aspera加速从中国的GSA数据库下载测序文件。

受控数据

而对于受控数据，通常就没有这些公开链接可以下载。

对于受控数据需要使用者先申请，获得授权后，下载下来的数据集信息（xlsx文件）也不包含FTP链接。但下载说明显示可以使用FileZilla登录账号来下载。

但这种方法，下载起来无疑是费时费力的（因为要下载到本地，再上传到自己的远程服务器，如果数据量很大，这么一折腾，耗时将会超级加倍）。既然可以FileZilla登录下载，那么理论上我们可以拼凑一个FTP的下载路径，直接提交到服务器下载。

前面也介绍过使用 wget 命令下载FTP链接的数据 CNGBdb — 国家基因库生命大数据平台之数据下载

screen -R wget
##单文件下载
wget -c -nH --cut-dirs=2 --ftp-user=yourusername --ftp-password=yourpassword ftp://human.big.ac.cn/HRA003312/HRR794438/HRR794438.tar.gz

##整个数据集下载
wget -c -r -np -nH --cut-dirs=1 --ftp-user=yourusername --ftp-password=yourpassword ftp://human.big.ac.cn/HRA003312/

-c #断点续传  
-r #递归下载  
-np #递归下载时不搜索上层目录  
-nH #不创建主机目录  
--cut-dirs: #这个选项后面跟一个数字，表示在下载的文件路径中去掉前多少层目录

速度差强人意，不知道大家有木有更简便的下载方式，可以留言交流。

wget 其余可选参数

-P #指定下载文件保存的目录
-q #安静模式
-v #详细模式
-i [file] #从文件读取URL，可以从文件中读取多个 URL 批量下载
-nd #不创建目录结构，直接将所有文件下载到当前目录
-A [extension]  #指定接受的文件类型，用于只下载特定类型的文件
-R [extension] #拒绝特定类型的文件，用户排除某些特定类型的文件
-H #跨主机下载，在递归下载时，-H 选项允许 wget 跨多个主机下载文件。例如，如果网页上有链接到不同服务器的资源，-H 会下载这些资源。
--limit-rate=[rate] #限制下载速度，避免占用过多带宽
--wait=[seconds] #设置每次下载之间的等待时间，以避免对服务器造成过大的负担
--waitretry=[seconds] #在下载失败后，设置重试的间隔时间
--timeout=[seconds] #设置连接超时时间、
--timestamping #基于时间戳下载，确保仅下载文件在服务器上更新的文件。如果文件的时间戳未更改，则不会重新下载。
--no-check-certificate #跳过SSL证书验证
--show-progress #显示进度条，默认显示。

##如果是HTTP链接需要用户名和密码
--user=[username] #指定用户名
--password=[password] #指定密码

GSA受控数据下载

正文

完全公开数据

受控数据

wget 其余可选参数

请到「今天看啥」查看全文