生信软件17 - 基于fasta文件的捕获探针设计工具catch

catch是broad研究所开发的一款用于设计捕获探针的python软件。

1. 软件安装

适用于Linux / windows等,安装要求Python≥3.8 | NumPy≥1.22 | SciPy≥1.8.0

# github安装
git clone https://github.com/broadinstitute/catch.git
cd catch
pip install -e .


# coonda安装
conda install -c bioconda catch

2. 基本用法

catch默认输出探针为fasta格式文件

design.py [dataset] [dataset ...] -o OUTPUT
dataset参数可以是以下2中输入格式:

1. Fasta文件路径
2. NCBI taxonomy ID, catch会自动根据ID下载对应fasta序列,输入格式为: download:TAXID

2.1 主要参数:
-pl/--probe-length PROBE_LENGTH/-ps/--probe-stride PROBE_STRIDE: 
将探针设计为PROBE_LENGTH nt长(即设计探针长度),并使用PROBE_STRIDE nt的步幅生成候选探针。 
(默认值:100和50。)

-m/--mismatches MISMATCHES:
允许的错配碱基数,值越大,探测越少。此值会显著影响运行时间,值越大,运行时间越短。

 -c/--coverage COVERAGE:
 确保探针至少捕获每个靶基因组的覆盖率,其中覆盖率是基因组的一部分或核苷酸的数量。 
 值越高,探测越多。(默认值:1.0,全基因组)。

-e/--cover-extension COVER_EXTENSION:
假设探针将捕获与其杂交的序列区域以及其两侧的COVER_EXTENSION nt。因为文库片段通常比捕获探针长,并且其值可以取决于文库片段长度。 
较高的值导致较少的探针,而较低的值在建模捕获中更严格。 通常使用50左右的值,并且在实践中效果良好。 (默认值:0。)


3. fasta文件作为输入运行示例

# 默认探针设计长度100bp
design.py design.fasta -o design.probes.fasta

4. taxonomy ID作为输入运行示例

软件运行时间较长,大约需要1小时左右。

# 运行测试案例,自动下载64320 taxonomy ID fasta序列
# 设计探针长度75nt, 最多2错配,探针与靶中间最长相同碱基至少60nt
# -o 输出文件
# --verbose 显示详细内容
design.py download:64320 -pl 75 -m 2 -l 60 -e 50 \
-o zika-probes.fasta --verbose


# 查看输出probes fasta文件
less -S zika-probes.fasta

zika-probes.fasta

6. 多taxonomy ID作为输入运行示例

输入更大、多种物种的taxonomy ID

# 将下载寨卡病毒(NCBI分类ID64320)和登革热病毒(NCBI分类ID12637)的全基因组
# 设计探针,并将探针保存到zika-and-dengue-probes.fasta
design_large.py download:64320 download:12637 \
-o zika-and-dengue-probes.fasta --verbose

相关推荐

  1. 技能52 - VCF文件hg38与hg19坐标相互转换

    2024-05-10 17:44:12       24 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-10 17:44:12       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-10 17:44:12       106 阅读
  3. 在Django里面运行非项目文件

    2024-05-10 17:44:12       87 阅读
  4. Python语言-面向对象

    2024-05-10 17:44:12       96 阅读

热门阅读

  1. linux 生成指定大小文件——dd命令

    2024-05-10 17:44:12       29 阅读
  2. 线程的创建方式

    2024-05-10 17:44:12       35 阅读
  3. 金融建模与分析

    2024-05-10 17:44:12       28 阅读
  4. 影像图层调整图像显示效果的色彩参数汇总

    2024-05-10 17:44:12       24 阅读
  5. oracle hint用法测试

    2024-05-10 17:44:12       36 阅读
  6. LeetCode|700. Search in Binary Search Tree

    2024-05-10 17:44:12       36 阅读