生物信息学
20220518_基因组contig与scaffold的N50大小统计
Song Wei
2023年3月12日 05:43
376
20220518_基因组contig与scaffold的N50大小统计
(3) Contig指的是基因组测序中的连续序列,也就是将所有的重叠序列组合在一起得到的单一序列。Contig的长度一般以bp为单位计算,一个基因组可以有多个Contig。在基因组测序过程中,Contig是通过对DNA序列进行重叠比对和拼接而获得的。
(2) Scaffold是指将Contig按照某种方式进行有序排列,通过加入一些gap(N)序列,使其形成的基因组结构。Scaffold的长度也是以bp为单位计算的,同样一个基因组可以有多个Scaffold。Scaffold的主要作用是将Contig的序列有序排列起来,从而更好地还原基因组的真实结构。在基因组测序过程中,Scaffold是通过对多个Contig进行比对和排序,然后将它们按照正确的顺序组合成一个Scaffold序列而获得的。
(1) N50是一种衡量基因组装配质量的指标之一。N50指的是将所有Contig或Scaffold按照长度从大到小排列后,从长到短进行累加,当累加总长度达到50%的基因组大小时,对应的Contig或Scaffold的长度就是N50。N50值越大,说明序列拼接的质量越高,能够更好地还原基因组的结构。通常来说,Contig和Scaffold的N50值越高,说明拼接质量越好,基因组装配的精度也就越高。
01 assembly_stats软件安装
(base) root@dell-server:/home/# pip install assembly_stats
02 assembly_stats软件使用方法
03 assembly_stats软件统计结果展示
(base) root@dell-server:/home/# assembly_stats genome.fasta
{
"Contig Stats": {
"L10": 1,
"L20": 3,
"L30": 6,
"L40": 9,
"L50": 13,
"N10": 14612419,
"N20": 12596737,
"N30": 10356262,
"N40": 7972914,
"N50": 6039544,
"gc_content": 32.21673534307239,
"longest": 15111501,
"mean": 323711.75977011496,
"median": 67267.0,
"sequence_count": 870,
"shortest": 980,
"total_bps": 281629231
},
"Scaffold Stats": {
"L10": 0,
"L20": 1,
"L30": 2,
"L40": 3,
"L50": 5,
"N10": 45097400,
"N20": 25348148,
"N30": 23763320,
"N40": 21293100,
"N50": 19542739,
"gc_content": 32.21673534307239,
"longest": 45097400,
"mean": 4024417.5857142857,
"median": 4077.0,
"sequence_count": 70,
"shortest": 1126,
"total_bps": 281709231
}
}
标签:
bioinfo
北京 天气
晴
3℃