3.windows下Ubuntu,sratoolkit软件,从ncbi的sra数据库下载数据。

NCBI的SRA(Sequence Read Archive)数据库是一个公共数据库,用于存储高通量测序数据,包括基因组、转录组和表观基因组等数据。研究人员可以在SRA数据库中找到各种生物样本的测序数据,并进行检索、下载和分析。

在NCBI的SRA数据库中,可以找到来自各种生物种类的测序数据,包括但不限于动物、植物、微生物等。这些数据有助于研究人员开展基因组学、转录组学和其他生物信息学研究。

其中sratoolkit软件可以下载数据,软件有两种下载方式。

第一种命令行下载:wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.7/sratoolkit.3.0.7-ubuntu64.tar.gz

第二种直接在windows系统中下载。

最后cd到下载目录,tar -zxvf sratoolkit.3.0.7-ubuntu64.tar.gz,解压缩。

vim ~/.bashrc,添加 export PATH="/mnt/h/softwore/sratoolkit.3.0.7-ubuntu64/bin/:$PATH" ,保存退出后,source ~/.bashrc,激活。

 prefetch -h
Usage:
  prefetch [options] <SRA accession> [...]
  Download SRA files and their dependencies

  prefetch [options] --cart <kart file>
  Download cart file

  prefetch [options] <URL> --output-file <FILE>
  Download URL to FILE   >>>>>>      出现这些后,代表可用。

在SRA数据库中可以找到很多的测序数据,可以在网页中搜素,找到自己感兴趣的数据,同时在SRA中搜索数据的方式方法也有很多,大家可以自学一下,最终找到自己感兴趣的数据。

 我找了小鼠的RNA转录组测序数据。

示例数据SRR28178505

prefetch 是 SRA Toolkit 中的一个命令行工具,用于从 NCBI 的 Sequence Read Archive (SRA) 下载数据。它可以帮助用户快速、高效地下载 SRA 数据集到本地计算机进行后续分析。1.可以下载数据:通过指定 SRA 数据集的 accession 号码,prefetch 可以下载相应的测序数据文件,包括原始测序数据和元数据信息。2.加速下载:prefetch 工具会尝试并行下载数据,以提高下载速度,并且能够利用 NCBI 的服务器资源来加速下载过程。自动解压:下载完成后,prefetch 会自动解压数据文件,使其准备好供后续处理和分析使用。

prefetch SRR28178505 #可以一个一个下。

也可以准备个文件,里面有下载的accession 号,cat download_file |while read id;do (prefetch $id &);done # 批量后台下载。

fastq-dump SRR28178505.sra #这个命令行可以解压单端数据。

fastq-dump --split-files SRR28178505.sra #这个命令行可以解压成双端数据。

最后得到双段数据SRR28178505_1.fastq,SRR28178505_2.fastq。

同时还可以批量解压。

ls SRR* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 6 ./$id  --include-technical & );done  #这样就可以批量解压了。

最后,我们得到了fastq文件。接下来,我们就可以对它们进行各种操作了。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-21 21:58:01       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-21 21:58:01       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-21 21:58:01       87 阅读
  4. Python语言-面向对象

    2024-03-21 21:58:01       96 阅读

热门阅读

  1. c++简介

    2024-03-21 21:58:01       44 阅读
  2. web高可用集群(lvs负载均衡+keepalved高可用)

    2024-03-21 21:58:01       37 阅读
  3. 算法刷题day32

    2024-03-21 21:58:01       32 阅读
  4. Linux 安装RabbitMQ及RabbitMQ Web界面管理

    2024-03-21 21:58:01       39 阅读
  5. 注解的原理

    2024-03-21 21:58:01       35 阅读
  6. 浅谈Spring框架

    2024-03-21 21:58:01       45 阅读
  7. C 语言中常量和变量的区别

    2024-03-21 21:58:01       47 阅读
  8. 【生命周期】简述及部分软件知识补充

    2024-03-21 21:58:01       41 阅读
  9. IM服务集群与跨服务器消息路由策略

    2024-03-21 21:58:01       34 阅读
  10. sqllab通关笔记(汇总)

    2024-03-21 21:58:01       40 阅读
  11. Docker 极简入门指南

    2024-03-21 21:58:01       124 阅读