生物信息学
20191006_OrthoFinder鉴定同源家族蛋白
(1)同源蛋白是在不同物种中具有相同起源的蛋白质,它们在进化过程中可能会发生一些变化,但仍保留了相同的功能。因此,鉴定同源蛋白可以帮助我们研究不同物种之间的演化关系、了解蛋白质的结构和功能、预测基因功能以及设计药物靶点等。在基因组学、系统生物学、比较基因组学、药物研发等领域,鉴定同源蛋白都是非常重要的一步。例如,可以利用鉴定出的同源蛋白构建蛋白质家族的进化树,推断出不同物种的演化关系和基因家族的扩张、收缩等进化过程;还可以利用同源蛋白的结构和功能信息,进行药物分子的设计、筛选和优化,以及分析蛋白质结构和功能的演化规律等。因此,鉴定同源蛋白在生命科学和医学研究中具有广泛的应用价值。综上所述,OrthoFinder可以帮助进行基因家族鉴定、功能注释、进化关系研究和基因家族缩减等方面的工作,从而为合成生物学研究提供重要的支持。
(2)OrthoFinder是一种用于识别同源蛋白的软件,其使用的算法基于全基因组比对。以下是OrthoFinder用于鉴定同源蛋白的方法:
- 预处理:OrthoFinder会将输入的多个基因组的蛋白质序列进行预处理,去除重复序列和低复杂度区域,并使用blastp算法将所有序列两两比对,计算相似度。
- 群组构建:接下来,OrthoFinder将所有序列根据相似度进行聚类。如果两个序列的相似度超过给定的阈值,则它们将被分为同一个群组。这个过程会构建一组可能的同源蛋白。
- 迭代优化:OrthoFinder将使用多序列比对算法对每个群组的序列进行多序列比对,并将比对结果作为输入重新进行聚类。这个过程会进行多轮迭代,直到每个群组内的序列都达到最优比对状态为止。
- 后处理:最后,OrthoFinder会对所有群组进行后处理,去除可能的假阳性,生成最终的同源蛋白族群。
总之,OrthoFinder通过将多个物种的蛋白质序列进行聚类和多序列比对,来鉴定可能的同源蛋白。这个方法可以在大规模基因组比对的情况下高效准确地识别同源蛋白。
(3)OrthoFinder安装
conda方法安装:conda create -n orthofinder python=3.6conda activate orthofinderconda install -c conda-forge orthofinderdocker方法安装:docker pull davidemms/orthofinder安装完成后,可以使用以下命令测试OrthoFinder是否成功安装:orthofinder --helpdocker run -it davidemms/orthofinder orthofinder --help
(4)分别下载不同物种蛋白质序列
下载人的所有蛋白序列,并命名为human.protein.fasta
下载果蝇的所有蛋白序列,并命名为drosophila.protein.fasta
(5)OrthoFinder鉴定人与果蝇之间同源蛋白家族
orthofinder -f input_folder -S diamond -M msa -T fasttree -t 8或docker run -v /var/run/docker.sock:/var/run/docker.sock -v `pwd`:/data -w /data davidemms/orthofinder orthofinder -f input_folder/ -S diamond -t 50
其中,-f 指定了FASTA文件夹路径,input_folder是一个文件夹名称,里面包含果蝇与人的蛋白质序列文件(human.protein.fasta和drosophila.protein.fasta), -S选项指定了使用Diamond代替BLAST进行序列相似性比对,-M选项指定了使用MAFFT代替MUSCLE进行多序列比对,-T选项指定了使用FastTree代替RAxML进行基因树构建,-t选项指定了线程数为8。
OrthoFinder还提供了许多其他的选项和参数,可以根据具体的分析目的和数据特点进行调整。例如:
- -e选项可以指定e-value阈值用于控制序列相似性比对的严格程度;
- -s选项可以指定基因族群中最少包含多少个物种的基因才算有效;
- -M选项还可以选择使用MUSCLE或者PRANK进行多序列比对;
- -A选项可以进行基因家族的进化分析等。
(6)OrthoFinder鉴定结果(同源蛋白家族鉴定结果保存于Orthogroups文件夹下的Orthogroups.tsv文件中):
ls -lhtr总用量 64Kdrwxr-xr-x 2 root root 12K 2月 24 03:52 Orthogroup_Sequencesdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Single_Copy_Orthologue_Sequencesdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Orthogroupsdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Species_Treedrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Phylogenetic_Hierarchical_Orthogroupsdrwxr-xr-x 4 root root 4.0K 2月 24 03:52 Orthologuesdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Putative_Xenologsdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Resolved_Gene_Treesdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Gene_Treesdrwxr-xr-x 4 root root 4.0K 2月 24 03:52 WorkingDirectorydrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Gene_Duplication_Eventsdrwxr-xr-x 2 root root 4.0K 2月 24 03:52 Comparative_Genomics_Statistics-rw-r--r-- 1 root root 548 2月 24 03:52 Log.txt-rw-r--r-- 1 root root 2.5K 2月 24 03:52 Citation.txtls -lhtr Orthogroups 总用量 56K -rw-r--r-- 1 root root 22K 2月 24 03:52 Orthogroups.txt -rw-r--r-- 1 root root 7.9K 2月 24 03:52 Orthogroups_UnassignedGenes.tsv -rw-r--r-- 1 root root 15K 2月 24 03:52 Orthogroups.tsv -rw-r--r-- 1 root root 1.9K 2月 24 03:52 Orthogroups.GeneCount.tsv -rw-r--r-- 1 root root 59 2月 24 03:52 Orthogroups_SingleCopyOrthologues.txthead Orthogroups/Orthogroups.tsv Orthogroup human.protein drosophila.protein OG0000000 rna-XM_044470426.1&gene=LOC123046963, rna-XM_044470434.1&gene=LOC123046963, rna-XM_044470438.1&gene=LOC123046963, rna-XM_044470450.1&gene=LOC123046963, rna-XM_044470458.1&gene=LOC123046963, rna-XM_044570131.1&gene=LOC123150297, rna-XM_044570132.1&gene=LOC123150297, rna-XM_044570133.1&gene=LOC123150297, rna-XM_044570134.1&gene=LOC123150297, rna-XM_044570135.1&gene=LOC123150297, rna-XM_044570136.1&gene=LOC123150297, rna-XM_044570137.1&gene=LOC123150297, rna-XM_044570138.1&gene=LOC123150297, rna-XM_044570139.1&gene=LOC123150297, rna-XM_044570140.1&gene=LOC123150297, rna-XM_044570141.1&gene=LOC123150297, rna-XM_044570142.1&gene=LOC123150297, rna-XM_044570143.1&gene=LOC123150297, rna-XM_044570144.1&gene=LOC123150297, rna-XM_044570145.1&gene=LOC123150297, rna-XM_044570146.1&gene=LOC123150297, rna-XM_044570147.1&gene=LOC123150297, rna-XM_044570148.1&gene=LOC123150297, rna-XM_044570149.1&gene=LOC123150297, rna-XM_044570150.1&gene=LOC123150297, rna-XM_044570151.1&gene=LOC123150297, rna-XM_044572580.1&gene=LOC123153472 OG0000001 XP_002371192.1, XP_002903649.1, XP_003880222.1, XP_004831514.1, XP_005536433.1, XP_005708237.1, XP_005823293.1, XP_005855296.1, XP_008862323.1, XP_008862324.1, XP_008880530.1, XP_008894637.1, XP_008894637.1, XP_008914912.1, XP_009689403.1, XP_009843980.1, XP_012209195.1, XP_012647743.1, XP_012768261.1, XP_013337795.1 OG0000002 rna-XM_044470362.1&gene=LOC123046927, rna-XM_044470363.1&gene=LOC123046927, rna-XM_044470364.1&gene=LOC123046927, rna-XM_044470365.1&gene=LOC123046927, rna-XM_044470366.1&gene=LOC123046927, rna-XM_044470367.1&gene=LOC123046927, rna-XM_044470368.1&gene=LOC123046927, rna-XM_044470369.1&gene=LOC123046927, rna-XM_044470370.1&gene=LOC123046927, rna-XM_044470372.1&gene=LOC123046927, rna-XM_044470373.1&gene=LOC123046927, rna-XM_044470374.1&gene=LOC123046927, rna-XM_044470375.1&gene=LOC123046927, rna-XM_044470376.1&gene=LOC123046927, rna-XM_044470377.1&gene=LOC123046927, rna-XM_044470378.1&gene=LOC123046927, rna-XM_044470379.1&gene=LOC123046927, rna-XM_044470380.1&gene=LOC123046927, rna-XM_044554646.1&gene=LOC123135543 OG0000003 rna-XM_044467245.1&gene=LOC123044488, rna-XM_044467249.1&gene=LOC123044488, rna-XM_044467252.1&gene=LOC123044488, rna-XM_044467257.1&gene=LOC123044488, rna-XM_044467264.1&gene=LOC123044488, rna-XM_044467272.1&gene=LOC123044488, rna-XM_044467279.1&gene=LOC123044488, rna-XM_044467288.1&gene=LOC123044488, rna-XM_044467295.1&gene=LOC123044488, rna-XM_044467303.1&gene=LOC123044488, rna-XM_044467312.1&gene=LOC123044488 NP_001345214.1 OG0000004 NP_001103085.1, NP_001155059.1, NP_002094.2, NP_037221.2, NP_068776.2, NP_109603.2, NP_663547.2, XP_006507020.1, XP_006719126.1, XP_011239885.1, XP_016874734.1, XP_024304728.1 OG0000005 rna-XM_044576520.1&gene=LOC123158607, rna-XM_044576521.1&gene=LOC123158607, rna-XM_044576522.1&gene=LOC123158607, rna-XM_044576523.1&gene=LOC123158607, rna-XM_044576524.1&gene=LOC123158607, rna-XM_044576525.1&gene=LOC123158607, rna-XM_044576526.1&gene=LOC123158607, rna-XM_044576527.1&gene=LOC123158607, rna-XM_044576528.1&gene=LOC123158607, rna-XM_044578150.1&gene=LOC123160343, rna-XM_044578151.1&gene=LOC123160343 OG0000006 rna-XM_044581870.1&gene=LOC123164410, rna-XM_044581871.1&gene=LOC123164410, rna-XM_044581872.1&gene=LOC123164410, rna-XM_044581874.1&gene=LOC123164410, rna-XM_044581875.1&gene=LOC123164410, rna-XM_044581876.1&gene=LOC123164410, rna-XM_044581877.1&gene=LOC123164410, rna-XM_044581878.1&gene=LOC123164410, rna-XM_044581879.1&gene=LOC123164410, rna-XM_044581880.1&gene=LOC123164410 OG0000007 rna-XM_044546874.1&gene=LOC123127256, rna-XM_044546875.1&gene=LOC123127256, rna-XM_044546876.1&gene=LOC123127256, rna-XM_044546877.1&gene=LOC123127256, rna-XM_044546878.1&gene=LOC123127256, rna-XM_044546879.1&gene=LOC123127256, rna-XM_044546880.1&gene=LOC123127256, rna-XM_044546881.1&gene=LOC123127256, rna-XM_044546882.1&gene=LOC123127256 OG0000008 NP_000603.1, NP_001007140.2, NP_001025513.1, NP_001121070.1, NP_001177091.1, NP_001278790.1, NP_001278791.1, NP_113699.2, XP_038952306.1