AvP:水平基因转移HGT检测

帮其他人做的一个尝试,本身不太了解这一块,要是做错了请多多包涵

Home · GDKO/AvP Wiki · GitHub

安装AvP

数据库准备

git clone https://github.com/GDKO/AvP.git
conda create --name avp
conda activate avp
conda install -y -c bioconda mafft blast trimal fasttree iqtree diamond=2.1.9 python=3.10
pip install numpy networkx pyyaml ete3 six biopython docopt pybedtools

##选择可以参考https://github.com/GDKO/AvP/wiki/Setting-up,这里使用本来就下好的NR
wget -c https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.FULL.gz
nohup diamond makedb --in nr.fa --taxonmap prot.accession2taxid.FULL.gz --db NR_2023_07_23.dmnd --taxonnodes taxdump/nodes.dmp --taxonnames taxdump/names.dmp &

AVP输入文件准备

还要创建groups.yaml文件

https://github.com/GDKO/AvP/wiki/Config-files#groupsyaml

如果你想找的是所有细菌的生物类群的水平基因转移(HGT),你可以将内群(Ingroup)设置为细菌界(Bacteria)的taxid。在NCBI的分类学数据库中,细菌界(Bacteria)的taxid是2。所以,你可以在config.yaml文件中设置Ingroup=2,同时设置EGP=1903258。这样,你就可以找到那些可能是由其他细菌转移给你的细菌菌株的基因了

和config.yaml文件

Config files · GDKO/AvP Wiki · GitHub

#准备基因组的NR比对文件
diamond blastp -q [proteins.fa] -d [db.fasta.dmnd] --evalue 1e-5 --max-target-seqs 500 --outfmt 6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore staxids --out [similarity.out]
#用AvP的代码处理一下,生成 ai.out 文件
~/AvP/aux_scriptscalculate_ai.py -i [similarity.out] -x groups.yaml

AvP准备 

avp prepare -a [ai.out] -o [output_dir] -f [protein.fasta] -b [blast.out|diamond.out] -x groups.yaml -c config.yaml

AvP进行

avp detect -i [output_dir]/mafftgroups/ -o [output_dir] -g [output_dir]/groups.tsv -t [output_dir]/tmp/taxonomy_nexus.txt -c config.yaml

下游分析

AvP分类

 创建classification.txt文件

https://github.com/GDKO/AvP/wiki/Config-files#classificationtxt

avp classify -i [output_dir]/fasttree_nexus/ -t [output_dir]/fasttree_tree_results.txt -f [classification.txt] -c config.yaml -o [output_dir]
AvP 评估 
avp evaluate -i [output_dir]/mafftgroups/ -t [output_dir]/fasttree_tree_results.txt -o [output_dir] -c config.yaml
 AvP hgt 本地得分
hgt_local_score.py -f [gff_file|bed_file] -a [ai.out] -t [output_dir]/fasttree_tree_results.txt -m [0|1] 

 

 

 

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-12 23:56:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-12 23:56:03       101 阅读
  3. 在Django里面运行非项目文件

    2024-03-12 23:56:03       82 阅读
  4. Python语言-面向对象

    2024-03-12 23:56:03       91 阅读

热门阅读

  1. vue的路由懒加载

    2024-03-12 23:56:03       44 阅读
  2. 【C++】每日一题 86 分隔链表

    2024-03-12 23:56:03       41 阅读
  3. 突破编程_C++_设计模式(迭代模式)

    2024-03-12 23:56:03       35 阅读
  4. 基于单片机的储油罐液位无线监测系统

    2024-03-12 23:56:03       47 阅读
  5. 【C++ 23种设计模式】

    2024-03-12 23:56:03       79 阅读
  6. leetcode 2386. 找出数组的第 K 大和【小根堆】

    2024-03-12 23:56:03       44 阅读
  7. DDR3 NATIVE接口

    2024-03-12 23:56:03       37 阅读
  8. 【PTA】L1-021 L1-022 L1-023 L1-024 L1-025(C)第四天

    2024-03-12 23:56:03       42 阅读
  9. 【面试准备日常】从头复习mysql--20240308

    2024-03-12 23:56:03       38 阅读
  10. MongoDB聚合运算符:$divide

    2024-03-12 23:56:03       43 阅读