生物信息学

20201106_BUSCO评估基因组组装完整度方法

Song Wei Song Wei 2023年3月12日 05:43
449
20201106_BUSCO评估基因组组装完整度方法


20201106_BUSCO评估基因组组装完整度方法


(1)BUSCO(Benchmarking Universal Single-Copy Orthologs)是一种用于评估基因组组装和注释质量的工具,其基本原理是通过检测核心基因组的一组单拷贝基因来评估组装的完整性和准确性。


(2)BUSCO 根据系统发育关系和物种特异性,选取了一组高度保守的单拷贝基因,这些基因在不同的生物中普遍存在,且不容易在基因组演化过程中丢失或复制。然后,使用这些单拷贝基因作为参考基因,通过比对评估基因组组装或注释的完整性和准确性。


(3)BUSCO 的评估过程分为两个主要步骤:搜索和评估。在搜索阶段,BUSCO 将参考基因组分为几个不同的数据库,根据用户提供的参考基因组进行 BLAST 搜索,以确定基因组序列中的相应单拷贝基因。在评估阶段,BUSCO 对检测到的单拷贝基因进行注释,根据单拷贝基因的存在与否和其完整性,评估组装或注释的完整性和准确性。最终,BUSCO 会生成多个报告,包括注释基因组中存在和缺失的单拷贝基因的数量和百分比等信息,以及注释的基因组序列的完整性和准确性等指标。



============================================

(1)BUSCO软件安装

============================================


安装依赖项:BUSCO 需要依赖 Python 和一些 Python 模块,例如 Biopython、numpy、matplotlib 等。可以使用以下命令安装这些依赖项:

sudo apt-get install python
sudo apt-get install python-biopython
sudo apt-get install python-numpy
sudo apt-get install python-matplotlib


下载 BUSCO 软件包:可以从 BUSCO 官网下载最新版本的软件包(https://busco.ezlab.org/)。

解压缩 BUSCO 软件包:将下载的 BUSCO 压缩包解压缩到指定目录。

tar -xzf busco_v4.1.2.tar.gz


下载 BUSCO 数据库:BUSCO 数据库包含了一组核心基因组的单拷贝基因序列,用于评估基因组组装的完整性和准确性。可以从 BUSCO 官网下载 BUSCO 数据库。

wget https://busco-data.ezlab.org/v5/data/lineages/metazoa_odb10.2021-09-10.tar.gz


解压 BUSCO 数据库:将下载的 BUSCO 数据库解压缩到指定目录。

tar -xzf metazoa_odb10.2021-09-10.tar.gz


添加 BUSCO 到 PATH:将 BUSCO 目录添加到系统 PATH 中,以便在任何目录下都可以直接运行 BUSCO。

export PATH=$PATH:/path/to/busco/bin/


测试 BUSCO 安装:在命令行中输入以下命令,运行 BUSCO 测试脚本,检查 BUSCO 是否安装成功。

python /path/to/busco/test/test_busco.py

如果测试脚本执行成功并输出 "BUSCO run successfully completed",则说明 BUSCO 安装成功。


============================================

(1)BUSCO软件评估基因组组装质量

============================================


# 定义输入文件路径和输出文件夹路径
genome_file=genome.fasta
output_folder=output


# 运行 BUSCO,输出结果到指定文件夹中
busco -i $genome_file -l metazoa_odb10 -o $output_folder -m genome
参数说明如下: -i:输入基因组文件,可以是 FASTA 或者 GenBank 格式的文件。 -l:指定 BUSCO 数据库的名称,可以是预先下载好的 BUSCO 数据库,也可以是用户自定义的数据库。 -o:指定输出文件名,输出文件将包含基因组组装的评估结果和统计信息。 -m:指定评估模式,可以是 genome 或 transcriptome,分别用于评估基因组和转录组组装的质量。 例如,以下命令可以对一个名为 genome.fasta 的基因组文件,使用 metazoa_odb10 数据库进行基因组组装质量评估,并将结果输出到 output_name 文件中。



# 生成图表
cd $output_folder/run_metazoa_odb10
generate_plot.py --no_annot --cores 1 -wd ./ -wd ./ -o busco.png -wd ./ -g metazoa

执行完以上命令后,在输出文件夹中就可以找到名为 busco.png 的图表文件,该图表显示了基因组组装质量评估结果。







标签: bioinfo
Weather
北京 天气
-7℃

网站浏览