生物信息学

20230425_BLAST软件升级:新增可精确定位错配碱基位置功能

Song Wei Song Wei 2023年4月25日 04:31
318
20230425_BLAST软件升级:新增可精确定位错配碱基位置功能

BLAST:

BLAST(Basic Local Alignment Search Tool)是一种常用的序列比对工具,用于比较两个或多个生物序列之间的相似性。BLAST算法是基于比对的方式,通过寻找两个序列之间的局部比对来确定它们的相似性,因此BLAST主要适用于寻找同源序列(homologous sequences)。


BLAST算法的流程如下:

  • 预处理:生成一个参考序列数据库,并将输入序列进行格式转换以适应比对算法的需要。
  • 查询:将查询序列与参考序列数据库中的序列进行比对。
  • 局部比对:BLAST使用一种称为Seed-and-Extend的方法来进行局部比对,即先找到两个序列之间的“种子”序列(seed sequence),然后根据这个种子序列向两端扩展以获得更长的比对序列。
  • 扩展比对:BLAST使用基于动态规划的Smith-Waterman算法来扩展种子序列的比对结果,得到最终的比对结果。
  • 结果输出:BLAST将比对结果按照相似性得分(score)从高到低排序,并提供详细的比对报告和统计信息。

BLAST算法有多个不同的实现,包括BLASTN(用于比对核酸序列)、BLASTP(用于比对蛋白质序列)等,可以根据需要选择适当的实现。BLAST算法还可以通过调整参数来提高比对的准确性和速度。


BLAST软件的使用:

BLAST的使用需要先建立一个序列数据库,然后将查询序列与参考序列数据库中的序列进行比对。

#BLAST建库:BLAST建库的过程可以通过将多个序列文件合并,然后使用makeblastdb命令将其转换为BLAST所需的格式。makeblastdb命令需要指定输入文件名、输出数据库名以及数据库类型。例如,要建立一个核酸序列数据库,可以执行以下命令:

makeblastdb -in sequences.fasta -dbtype nucl -out sequences_db

#其中,-in指定输入文件名,-dbtype指定数据库类型(nucl表示核酸序列,prot表示蛋白质序列),-out指定输出数据库名。


#BLAST比对:BLAST比对可以使用blastn、blastp、tblastx等命令进行。其中,blastn用于核酸序列比对,blastp用于蛋白质序列比对,tblastx用于DNA和蛋白质序列比对。这些命令需要指定查询序列、参考数据库以及输出文件名。例如,要比对一个核酸序列,可以执行以下命令:

blastn -query query.fasta -db sequences_db -out output.txt

#其中,-query指定查询序列文件名,-db指定参考数据库名,-out指定输出文件名。


BLAST输出结果解读:

以下是一个假设的BLAST表格输出结果的例子:
query1  subject1  100.00  200  2  0  1  200  1  200  1e-100  400  
query2  subject1  90.00   190  1  1  1  200  1  190  1e-80   380   


假设我们使用BLAST进行了一个核酸序列比对,选择了表格输出格式(-outfmt 6或7)。表格输出格式是一种简洁的输出方式,每一行代表一次比对结果,各列之间以制表符(tab)分隔。以下是各列的具体含义:
qseqid:查询序列(query sequence)的标识符,通常是序列的名称或ID。
sseqid:匹配序列(subject sequence)的标识符,通常是序列的名称或ID。
pident:序列标识度(percentage of identical matches),表示查询序列和匹配序列在比对区域内的相同碱基对所占的百分比。
length:比对区域的长度,即比对上的碱基对数目。
mismatch:不匹配的碱基对数目。
gapopen:比对区域内的间隙(gap)开放次数。
qstart:比对区域在查询序列上的起始位置。
qend:比对区域在查询序列上的终止位置。
sstart:比对区域在匹配序列上的起始位置。
send:比对区域在匹配序列上的终止位置。
evalue:预期值(E-value),表示在随机情况下,可以找到具有相同或更高得分的比对次数的期望值。较小的E-value意味着比对结果更具有生物学意义。
bitscore:比对得分(bit score),反映了查询序列和匹配序列的相似性。较高的bit score意味着比对结果更具有生物学意义。

上面例子中,我们有两个比对结果。第一行表示query1和subject1的比对结果:标识度为100%,比对长度为200,有2个不匹配碱基,查询序列和匹配序列的比对区域分别为1-200和1-200,E-value为1e-100,bit score为400。第二行表示query1和subject2的比对结果,具体的解释方法与第一行类似。


BLAST软件功能升级:

上述BLAST输出的结果只包含了查询序列与参考序列之间的mismatch错配碱基数量。然而,这并不足以提供足够的信息来理解生物体内发生的过程,因为无法确定这些错配碱基在参考序列上的具体位置。因此,需要对BLAST进行功能升级。

(base) root@dell-server:/home/dell/111111/test/newtest# cat blastn-identify-mismatch-location.py
import os
import sys
import subprocess
from Bio import SearchIO
import csv
#python 6.py query.fasta  reference.fasta
#awk '{if ($4=="150" && $5 == "1") print }' query_reference_with_mismatch-blast.out

# 定义输入文件和数据库名称
query_file = sys.argv[1]
reference_file = sys.argv[2]
blast_db = sys.argv[2].strip().split(".fasta")[0]
blast_output_file = sys.argv[1].strip().split(".fasta")[0]  + "_" +  sys.argv[2].strip().split(".fasta")[0] + "-blast.out"
blast_output_with_mismatch_file = sys.argv[1].strip().split(".fasta")[0]  + "_"  + sys.argv[2].strip().split(".fasta")[0] + "_with_mismatch-blast.out"

# 使用 makeblastdb 建立数据库
makeblastdb_cmd = f"makeblastdb -in {reference_file} -dbtype nucl -out {blast_db}"
subprocess.run(makeblastdb_cmd, shell=True, check=True)
# 使用 blastn 进行比对
blastn_cmd = f"blastn -query {query_file} -db {blast_db} -out {blast_output_file} -outfmt '6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qseq sseq'"
subprocess.run(blastn_cmd, shell=True, check=True)
"""
# 读取并解析 BLASTn 输出文件
with open(blast_output_file, 'r') as output:
    csv_reader = csv.reader(output, delimiter='\t')
    for row in csv_reader:
        query_id, subject_id, pident, length, mismatch, gapopen, qstart, qend, sstart, send, evalue, bitscore, query_seq, subject_seq = row
        qstart, qend, sstart, send = map(int, (qstart, qend, sstart, send))
        # 找到 mismatch 的位置
        for i, (q_base, s_base) in enumerate(zip(query_seq, subject_seq)):
            if q_base != s_base:
                mismatch_position_in_query = qstart + i
                mismatch_position_in_subject = sstart + i
                print(f"Query: {query_id}, Subject: {subject_id}, Mismatch: {q_base} -> {s_base}, Query pos: {mismatch_position_in_query}, Subject pos: {mismatch_position_in_subject}")
"""
# 读取并解析 BLASTn 输出文件
with open(blast_output_file, 'r') as output, open(blast_output_with_mismatch_file, 'w') as output_with_mismatch:
    csv_reader = csv.reader(output, delimiter='\t')
    csv_writer = csv.writer(output_with_mismatch, delimiter='\t')
    for row in csv_reader:
        query_id, subject_id, pident, length, mismatch, gapopen, qstart, qend, sstart, send, evalue, bitscore, query_seq, subject_seq = row
        qstart, qend, sstart, send = map(int, (qstart, qend, sstart, send))
        # 找到 mismatch 的位置
        mismatch_info = []
        for i, (q_base, s_base) in enumerate(zip(query_seq, subject_seq)):
            if q_base != s_base:
                mismatch_position_in_query = qstart + i
                mismatch_position_in_subject = sstart + i
                mismatch_info.append(f"{q_base}{mismatch_position_in_subject}{s_base}")
        # 将 mismatch 信息作为附加列添加到原始输出文件中的每一行
        new_row = row + [';'.join(mismatch_info)]
        csv_writer.writerow(new_row)

os.system('awk -F \'\t\' -v OFS=\'\t\' \'{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12,$15}\'  %s | column -t -s $\'\t\' | sort -n -k 9   >  tmp.txt  && mv tmp.txt %s'%(blast_output_with_mismatch_file,blast_output_with_mismatch_file))
os.system('rm -rf *.nsq  *.nin *.nhr  ')


升级后的BLAST软件输出的新结果:

# 执行python  blastn-identify-mismatch-location.py   query.fasta  reference.fasta命令后输出的新结果:

query1  subject1  100.00  200  2  0  1  200  1  200  1e-100  400  A236T,C269G
query2  subject1  90.00   190  1  1  1  200  1  190  1e-80   380    G566C

上述比对结果显示,query1与subject1之间存在两个mismatch碱基,分别位于第236和269个碱基处;而query2与subject1之间存在一个mismatch碱基,位于第566个碱基处。



标签: bioinfo
Weather
北京 天气
0℃

网站浏览