如何从NCBI下载SRA数据
我们通常需要从NCBI去下载公共数据,这些数据常常是以SRA格式存储在云端,那么我们该如何下载它们呢。
1. 登陆NCBI,选择GEO DataSets,输入查询关键字:“GSE147236”
2. 点击第一个items,进入GEO Accession Viewer网址
3. 点击该网页最下方SRA Run Selector链接选项,进入下载SRA信息网址
4. 进入Run Selector网址,可根据下方table选择下载的SRA样本,再在Select功能栏选择Download列的Metadata和Accession List进行下载,前者是SRA的分组等信息,后者是SRA的单独SRA编号,可以用于后续下载SRA数据。
5. 获取SRA AccessionList文件后,可使用先前安装好的sratoolkit软件套装 prefetch下载SRA文件,但在下载前需设置下载路径:
- 简要说明安装(以ubuntu举例),1)先去 https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit 下载sratoolkit; 2)解压压缩包 3)sratoolkit软件导入环境
# download
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
# uncompress
tar -vxzf sratoolkit.tar.gz
# cd ~/.bashrc
export PATH=$PATH:$PWD/sratoolkit.3.0.0-mac64/bin:$PATH
先使用which prefetch查看是否已安装该软件;
再使用vdb-config --interactive命令,在交互式窗口SRA configuration设置下载路径;
选择CACHE设置location,两个location选项均可以设置为文件下载路径
6. 配置完下载路径后,在该目录下运行下列下载命令,所下载文件.sra文件将在该目录下的子目录sra内
# 下载文件
head public_samples_SRA.tsv
# SRR212430
# SRR212431
# SRR212432
# SRR212433
# 下载命令
prefetch --option-file public_371samples_SRA.tsv