专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
BioArt  ·  Immunity丨基于特异性的工程平台T-S ... ·  2 天前  
生物学霸  ·  高福院士:AI 时代更需要警惕「信息病毒」 ·  2 天前  
生信宝典  ·  新课上线 | ... ·  3 天前  
51好读  ›  专栏  ›  生信宝典

测序文章数据上传找哪里

生信宝典  · 公众号  · 生物  · 2017-06-21 06:37

正文

在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。

注册账户、填写MetaSheet

  • 在NCBI GEO官网注册一个账号,然后登陆。

  • 点击Submission Guidelines . 从中查找GEOarchive spreadsheet format,并下载Metadata  spreadsheet, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。

  • 下载完之后填写表格。表格中有2个样例表,可以参考着填写。

    • 表格里面需要的MD5值在Linux下可以使用命令md5sum filename来获取; Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。

  • 数据上传,原始测序的fastq一般采用gzip压缩后上传。

    • 在Linux系统,使用的是lftp上传; Windows可以使用FileZilla.

Linux下lftp上传

为了方便lftp上传,我写了一个bash脚本, 命名为GEO_upload.sh,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。

GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/

为了简单方便,localdir里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。


#!/bin/bash

#set -x
set -e
set -u

usage()
{
cat <&2
${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to upload files to an FTP server using lftp.

${txtbld}OPTIONS${txtrst}:
   -f    FTP address ${bldred}[NECESSARY]${txtrst}
   -u    User name ${bldred}[NECESSARY]${txtrst}
   -p    Password ${bldred}[NECESSARY]${txtrst}
   -t    Target dir ${bldred}[NECESSARY]${txtrst}
   -s    Source dir ${bldred}[NECESSARY]${txtrst}    
EOF
}

ftp=
user=
passwd=
target=
source_dir=

while getopts "hf:u:p:t:s:" OPTION
do
   case $OPTION in
       h)
           usage
           exit 1
           ;;
       f)
           ftp=$OPTARG
           ;;
       u)
           user=$OPTARG
           ;;
       p)
           passwd=$OPTARG
           ;;
       t)
           target=$OPTARG
           ;;
       s)
           source_dir=$OPTARG
           ;;
       ?)
           usage
           exit 1
           ;;
   esac
done

if [ -z $ftp ]; then
   usage
   exit 1
fi

cat <lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END

lftp -f lftp.script

Filezilla上传

  • 如图所示,填写好登录所需的信息,然后双击进入fasp目录。

  • 在右侧窗口,点击右键,选择创建目录并进入

  • 将左侧窗口要上传的文件拖动到右侧窗口,开始上传。

  • 在菜单栏的传输对已存在文件的默认操作—选择上传-继续文件传输即可实现断点续传。

  • 设置重连次数: 编辑-设置-最大重试次数 99; 登陆重试延时 200; 超时秒数 20

上传完成后,需要给GEO的管理人员写一封邮件,大体内容如下:

Receiver: [email protected]

Subject: ftp upload

Context:

Dear Sir/Madam, 

Thanks for you kindly host such great public data resource.

I have successfully transferred my data to NCBI-GEO ftp sever. 

Here is the information you may be needed for further processing

1. GEO account username: 我的GEO用户名
2. Names of the directory and files deposited: 文件上传的路径, 对应上
面的fasp/detination_dir/
3. Public release date: 2018-12-31 文件释放时间,一般可以设置的比较远

If there is any format or content problem,  please do not hesitate to
contact me.

Best, 

Name

获取GEO号

待GEO的工作人员审核处理后,你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。

Linux下智能上传

另外还可以借助airflow,使得上传更加自动化,具体程序见 GEO_upload.py。