我们马拉松授课有个小伙伴问 arrayexpress 数据库的文件如何下载,因为我们给大家演示的使用 GEO 数据库下载的帖子比较多,这就来看看!
arrayexpress 数据库的官网为:
https://www.ebi.ac.uk/biostudies/arrayexpress
首先,让人工智能大模型给我们介绍一下arrayexpress数据库
简单学习一下这个数据库的背景知识,问kimi:
介绍一下arrayexpress数据库,它与GEO数据库相比有什么不同?
ArrayExpress数据库简介
ArrayExpress
是由欧洲生物信息学研究所(EBI)维护的一个功能基因组学数据公共存储库,主要用于存储和提供高通量功能基因组学数据。它支持多种数据类型,包括基因表达数据(主要基于微阵列和高通量测序平台)、染色质免疫沉淀测序(ChIP-seq)、基因分型等。
主要特点
数据类型丰富
:存储微阵列、高通量测序等多种功能基因组学数据。
数据提交与管理
:支持用户直接提交数据,并通过Annotare工具进行手动校对,确保数据符合MIAME(微阵列实验的最小信息)和MINSEQE(测序实验的最小信息)指南。
数据公开与访问
:所有数据对公众开放,且无使用限制。
实验因子本体(EFO)
:使用EFO对实验变量进行系统描述,确保数据的标准化和可重复性。
数据量与增长
:ArrayExpress的数据量庞大且持续增长,是功能基因组学研究的重要资源。
ArrayExpress与GEO数据库的比较
数据存储与管理
ArrayExpress
:数据存储结构复杂,包含超过200个独特的表格,用于处理各种输入数据格式。它强调数据的标准化和校对,以确保数据质量。
GEO(Gene Expression Omnibus)
:由NCBI维护,是另一个主要的公共基因表达数据库。GEO的数据存储结构相对简单,更注重数据的快速提交和访问。
数据提交与校对
ArrayExpress
:通过Annotare工具进行数据提交,提交过程包括验证和校对步骤,以确保数据符合社区标准。
GEO
:数据提交相对简单,但也支持数据的校对和标准化,以提高数据质量。
数据访问与分析
ArrayExpress
:提供丰富的元数据和实验描述,支持复杂查询和数据检索。
GEO
:提供用户友好的界面,支持多种数据检索和分析工具。
数据标准化与社区标准
ArrayExpress
:是第一个支持MAGE-ML(MicroArray Gene Expression Markup Language)导入和导出的数据库,也是第一个符合MIAME标准的数据库。
GEO
:也支持多种数据格式和社区标准,但在数据标准化方面相对ArrayExpress略显不足。
数据整合与跨研究分析
ArrayExpress
:虽然不是为跨研究整合设计的,但提供了丰富的元数据,便于研究人员进行数据整合。
GEO
:同样支持跨研究分析,但需要额外的元数据标准化和处理。
总结
ArrayExpress和GEO都是功能基因组学研究的重要资源,但它们在数据存储、提交、校对、访问和标准化方面存在一些差异。ArrayExpress在数据标准化和校对方面更为严格,而GEO则在数据提交和访问方面更为便捷。研究人员可以根据自己的需求选择合适的数据库进行数据存储和分析。
数据下载
我们以下面这篇文献中的数据为例:《
Single-cell transcriptomics reveals cellularheterogeneity and molecular stratificationof cervical cancer
》,单细胞数据编号为
E-MTAB-11948
:
Single-cell RNA sequencing gene expression data generated in this study has been deposited in the ArrayExpress database with accession of E-MTAB-11948. Any other data are available from the corresponding author on reasonable request. Software and resources used for analysis and plotting are described in each method section.
1、检索数据,得到以下页面
点击
Download all files
按钮:
2、得到下载命令
这里数据库给了三个平台的下载方式,我这里选择使用服务器进行下载,选择如下:
得到下载命令文件 E-MTAB-11948-unix-aspera.sh,文件内容如下:
ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample4.csv" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample4features.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample1features.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample5.csv" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample3.csv" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample1matrix.mtx.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample3features.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample6.csv" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample2barcodes.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample5features.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample3barcodes.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample5matrix.mtx.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample2.csv" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample4barcodes.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample4matrix.mtx.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample1.csv" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample5barcodes.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample1barcodes.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample6matrix.mtx.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample3matrix.mtx.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample6features.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample2features.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample2matrix.mtx.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/sample6barcodes.tsv.gz" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/E-MTAB-11948.idf.txt" ./ ascp -P33001 -i "C:/aspera/cli/etc/asperaweb_id_dsa.openssh" --host=fasp.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/E-MTAB-11948.sdrf.txt" ./
3、bash下载
上面的命令我们还需要简单的修改一下,主要是修改其中的 aspera秘钥文件的路径:C:/aspera/cli/etc/asperaweb_id_dsa.openssh
服务器上的秘钥路径:
# 安装了aspera的conda 环境rna conda activate rna# 查找路径 find /nas2/zhangj/biosoft/miniconda3/envs/rna/ -name '*asperaweb_id_dsa.openssh' # /nas2/zhangj/biosoft/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh # 批量替换上面的 sed -i 's#C:/aspera/cli/etc/asperaweb_id_dsa.openssh#/nas2/zhangj/biosoft/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh#g' E-MTAB-11948-unix-aspera.sh
测试一个看看,哈报错了:
ascp -vQT -l 500m -k 1 -P33001 -i "/nas2/zhangj/biosoft/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh" --host=fasp-beta.ebi.ac.uk --user=bsaspera --mode=recv "fire/E-MTAB-/948/E-MTAB-11948/Files/Sample4.csv" ./ ascp: failed to authenticate, exiting. Session Stop (Error: failed to authenticate)
搜索一番后,貌似没有啥解决方案,试试ftp下载吧
得到每个文件的ftp下载链接: