windows ubuntu子系统,肿瘤全外篇1.安装软件及建立数据库

        外显子组测序(Exome sequencing)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于外显子组测序捕获目标区域只占人类基因组长度的约1% ,但变异占比高达85%,因此远比进行全基因组序列测序来得更简便、经济,目标区域覆盖度也更高,便于变异检测。

        这次我主要分享的是在Ubuntu 子系统下,建立一个从fastq文件到vcf注释的肿瘤全外流程。主要是bwa-gatk4.

#建立qw 环境

conda create -n qw 

conda activate qw

#安装软件

conda install -c bioconda sra-tools -y
conda install -c bioconda samtools -y
conda install -c bioconda bcftools -y
conda install -c bioconda snpeff -y
conda install -c bioconda qualimap -y
conda install -c bioconda fastqc -y
conda install -c bioconda bwa -y
 conda install -c bioconda  Cutadapt -y #失败,因为需要python =3.7
conda install -c bioconda trim_galore -y #失败,因为需要python =3.7

conda 建立新的环境 myenv python=3.7
 conda install -c bioconda  Cutadapt -y 
conda install -c bioconda trim_galore -y

#首先建立bwa人源比对数据库

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/ 官网下载hg38和MD5sum.txt

touch md5.txt
vim md5.txt
#可以检查HG38的语句。

1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz #保存。
md5sum -c md5.txt #ok就代表没问题。
gunzip hg38.fa.gz #解压缩

bwa index -a bwtsw hg38.fa #建立索引

samtools faidx hg38.fa #samtools对hg38参考基因组进行FAI索引。

wget https://github.com/broadinstitute/picard/releases/download/2.23.9/picard.jar  #迅雷下载java -Xmx2g -jar picard.jar

java -jar /mnt/h/softwore/picard/picard.jar CreateSequenceDictionary R=./hg38.fa O=./hg38.dict  #Picard建立字典成功。

最后生成以下文件。

#接下来下载GAtk4

wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.2.0/gatk-4.1.2.0.zip #conda安装GATK没作用,这个下载太慢,而且有时候下载还需要填写什么用户名。在中国,下载这个软件还挺难的。

#接下来登录gatk官网(非常慢),迅雷下载gatk-4.1.2.0,好不容易成功。

export PATH="/mnt/h/softwore/gatk-4.2.1.0/:$PATH" #添加环境变量激活。

#GATK是基于Java开发的,所以在运行GATK之前,需要确保Java已经正确安装并且在系统的环境变量中配置了Java的路径。
sudo apt install default-jre #安装java

终于成功。

接下来,需要获得gatk hg38 的数据库。gatk4参考文件下载:console.cloud.google.com

因为我没有公司的辅助了,最后我在从基因学苑公众得到gatkhg38的文件。大家可以去看,如果有能力也可以自己下载。如何下载生物数据(三):GATK数据下载 

最终,我得到了gatk4 hg38 参考数据库。

接下来,我们就可以下载人的肿瘤全外数据开始跑了。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-24 00:20:01       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-24 00:20:01       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-24 00:20:01       87 阅读
  4. Python语言-面向对象

    2024-04-24 00:20:01       96 阅读

热门阅读

  1. php中常见的正则使用方法

    2024-04-24 00:20:01       33 阅读
  2. Thinkphp命令行创建repository和transform层扩展包

    2024-04-24 00:20:01       36 阅读
  3. 多特征融合的聚类背景下特征选择问题笔记整理

    2024-04-24 00:20:01       38 阅读
  4. 【Git 】常用指令

    2024-04-24 00:20:01       31 阅读
  5. Web集群_01

    2024-04-24 00:20:01       32 阅读
  6. Python实战:文本内容提取

    2024-04-24 00:20:01       37 阅读
  7. Chapter 1-14. Introduction to Congestion in Storage Networks

    2024-04-24 00:20:01       34 阅读
  8. 成长&工作&思考

    2024-04-24 00:20:01       32 阅读
  9. g 对象:Flask 应用中的“临时口袋”

    2024-04-24 00:20:01       35 阅读