生物信息学

20220518_基因组contig与scaffold的N50大小统计

Song Wei Song Wei 2023年3月12日 05:43
376
20220518_基因组contig与scaffold的N50大小统计

  20220518_基因组contig与scaffold的N50大小统计


(3) Contig指的是基因组测序中的连续序列,也就是将所有的重叠序列组合在一起得到的单一序列。Contig的长度一般以bp为单位计算,一个基因组可以有多个Contig。在基因组测序过程中,Contig是通过对DNA序列进行重叠比对和拼接而获得的。

(2) Scaffold是指将Contig按照某种方式进行有序排列,通过加入一些gap(N)序列,使其形成的基因组结构。Scaffold的长度也是以bp为单位计算的,同样一个基因组可以有多个Scaffold。Scaffold的主要作用是将Contig的序列有序排列起来,从而更好地还原基因组的真实结构。在基因组测序过程中,Scaffold是通过对多个Contig进行比对和排序,然后将它们按照正确的顺序组合成一个Scaffold序列而获得的。

(1) N50是一种衡量基因组装配质量的指标之一。N50指的是将所有Contig或Scaffold按照长度从大到小排列后,从长到短进行累加,当累加总长度达到50%的基因组大小时,对应的Contig或Scaffold的长度就是N50。N50值越大,说明序列拼接的质量越高,能够更好地还原基因组的结构。通常来说,Contig和Scaffold的N50值越高,说明拼接质量越好,基因组装配的精度也就越高。



01 assembly_stats软件安装

(base) root@dell-server:/home/# pip install assembly_stats




02 assembly_stats软件使用方法





03 assembly_stats软件统计结果展示

(base) root@dell-server:/home/# assembly_stats  genome.fasta
{
  "Contig Stats": {
    "L10": 1,
    "L20": 3,
    "L30": 6,
    "L40": 9,
    "L50": 13,
    "N10": 14612419,
    "N20": 12596737,
    "N30": 10356262,
    "N40": 7972914,
    "N50": 6039544,
    "gc_content": 32.21673534307239,
    "longest": 15111501,
    "mean": 323711.75977011496,
    "median": 67267.0,
    "sequence_count": 870,
    "shortest": 980,
    "total_bps": 281629231
  },
  "Scaffold Stats": {
    "L10": 0,
    "L20": 1,
    "L30": 2,
    "L40": 3,
    "L50": 5,
    "N10": 45097400,
    "N20": 25348148,
    "N30": 23763320,
    "N40": 21293100,
    "N50": 19542739,
    "gc_content": 32.21673534307239,
    "longest": 45097400,
    "mean": 4024417.5857142857,
    "median": 4077.0,
    "sequence_count": 70,
    "shortest": 1126,
    "total_bps": 281709231
  }
}




标签: bioinfo
Weather
北京 天气
3℃

网站浏览