国家生物信息学中心(National Bioinformatics Center, NBC)下的GSA(Genetic Sequence Archive,基因序列档案)数据库是一个面向全球的基因组数据存储、管理和共享平台。它主要用于收集、存储和共享基因组、转录组、表观组等相关的生物学数据,尤其是在中国及亚太地区的基因组数据方面有着重要作用。虽然是公共数据库,但其数据有完全公开的数据,也有受控数据,因此下载起来会有区别。
完全公开数据
公开数据示例
完全公开的数据下载起来相对多样,你可以选择FTP链接、Aspera命令行或者EdgeTurbo,之前我们也介绍过
使用aspera加速从中国的GSA数据库下载测序文件
。
受控数据
而对于受控数据,通常就没有这些公开链接可以下载。
受控数据示例
对于受控数据需要使用者先申请,获得授权后,下载下来的数据集信息(xlsx文件)也不包含FTP链接。但下载说明显示可以使用FileZilla登录账号来下载。
但这种方法,下载起来无疑是费时费力的(因为要下载到本地,再上传到自己的远程服务器,如果数据量很大,这么一折腾,耗时将会超级加倍)。既然可以FileZilla登录下载,那么理论上我们可以拼凑一个FTP的下载路径,直接提交到服务器下载。
前面也介绍过使用
wget
命令下载FTP链接的数据
CNGBdb — 国家基因库生命大数据平台之数据下载
screen -R wget
##单文件下载
wget -c -nH --cut-dirs=2 --ftp-user=yourusername --ftp-password=yourpassword ftp://human.big.ac.cn/HRA003312/HRR794438/HRR794438.tar.gz
##整个数据集下载
wget -c -r -np -nH --cut-dirs=1 --ftp-user=yourusername --ftp-password=yourpassword ftp://human.big.ac.cn/HRA003312/
-c #断点续传
-r #递归下载
-np #递归下载时不搜索上层目录
-nH #不创建主机目录
--cut-dirs: #这个选项后面跟一个数字,表示在下载的文件路径中去掉前多少层目录
数据集下载示例
速度差强人意,不知道大家有木有更简便的下载方式,可以留言交流。
wget 其余可选参数
-P #指定下载文件保存的目录
-q #安静模式
-v #详细模式
-i [file] #从文件读取URL,可以从文件中读取多个 URL 批量下载
-nd #不创建目录结构,直接将所有文件下载到当前目录
-A [extension] #指定接受的文件类型,用于只下载特定类型的文件
-R [extension] #拒绝特定类型的文件,用户排除某些特定类型的文件
-H #跨主机下载,在递归下载时,-H 选项允许 wget 跨多个主机下载文件。例如,如果网页上有链接到不同服务器的资源,-H 会下载这些资源。
--limit-rate=[rate] #限制下载速度,避免占用过多带宽
--wait=[seconds] #设置每次下载之间的等待时间,以避免对服务器造成过大的负担
--waitretry=[seconds] #在下载失败后,设置重试的间隔时间
--timeout=[seconds] #设置连接超时时间、
--timestamping #基于时间戳下载,确保仅下载文件在服务器上更新的文件。如果文件的时间戳未更改,则不会重新下载。
--no-check-certificate #跳过SSL证书验证
--show-progress #显示进度条,默认显示。
##如果是HTTP链接需要用户名和密码
--user=[username] #指定用户名
--password=[password] #指定密码