这是一个全自动进行多基因联合构树的程序, 使用了ClustalW
算法进行批量处理比对序列,程序使用了多线程。 可以实现fasta
格式的序列文件的批量分割,合并,聚类,基因查找,基因位置导出,等等功能。
- 需要克隆这个项目到本地,前提是安装
git
。下载地址
git clone https://gitee.com/theing/bio_tools.git
或者直接下载本项目到您的使用目录
-
安装MEGA-CC,因为使用的是win系统,所以需要安装这个内核,在Linux系统下不需要安装,后续有机会会开发适配Linux系统的程序。安装请选择Command Line(CC), Windows版本安装。 下载地址
-
安装Python解释器。
-
功能介绍:有时候我们需要提取出整个序列单个基因的序列文件,可以用到这个功能。
使用:把需要分割的
fasta
源文件放入source
文件夹中,在bin
目录中执行命令,程序会自动执行,执行完毕会在目录里生成bulid
文件夹中生成相应文件名,里面存放着相应文件分割后的单基因序列文件。python split_seq.py
-
功能介绍:有时候我们需要多个物种的同一个基因写入到同一个
fasta
文件中,此时可以用到这个命令(都是批量的,后续如果有需求会添加聚类单个基因的选项)。添加功能,可以自动查找可用于多基因联合构树的基因,导出到use
目录下。使用:把需要分割的
fasta
源文件放入source
文件夹中,执行命令会在目录里生成bulid
文件夹,默认名称为sequence + geneName
,在bin
目录下执行:python class_seq.py
-
功能介绍:在聚类出相同的基因后可以用这个功能进行批量的比对,默认使用MEGAX内核集成的
ClustalW
算法对蛋白质进行比对,程序使用了多线程,相比上一个版本大幅缩短了比对的时间。使用:默认读取目录为
\bulid\class\use\
,为聚类的输出目录,后续看需求是否增加选项,在bin
目录下执行。python align_seq.py
-
功能介绍:当时聚类了很多的单基因后得到了很多的多个物种的单基因文件,比对后又得到很多的比对后的文件,此时又要把这些只有一个基因的的序列文件合并成,一个物种的整条序列。可以用到这个功能,基本是聚类的逆向工程。为什么要写这两个功能,因为如果直接排序基因参与比对的话算法似乎不准确,得到的序列大多参差不齐,所以需要拆分这些基因单独的进行比对,然后再合并成一个物种的整个序列,得到比对好的序列,可直接拿来建树。
使用:默认读取的单基因
fasta
文件为bulid\megax\aligned
中,会在bulid\marged
中生成合并并排序好序列的fasta
文件,在bin
目录下执行。python merge_seq.py
-
功能介绍:有时候我们得到一个整个序列只有ATCG的序列文件,没有标注基因头信息,可以用到这个功能。
需要的头信息可以在文件里面更改。或者提供csv表格,每行的第一格为基因名称,第二格为起始位置,第二格为终止位置,第三格(
+/-
)为正序或互补序列。注意:
-
dataInfor
为csv
文件,格式如trnH-GUG,2,75,-, psbA,421,1482,-, trnK-UUU,1782,1816,-,exon2 matK,2092,3612,-, trnK-UUU,4377,4413,-,exon1
-
source
中fasta
文件未标注的序列中第一行标注结尾为[]
,没有请自行添加使用:把已经有的
csv
文件,添加到dataInfor
文件中命名为lable.csv
,把对应的基因序列文件放在source
文件夹中,在bin
目录下终端中执行命令,执行程序可在bulid
文件夹中生成标注好的fasta
格式的文件python autoLable_seq.py
-
功能介绍:有时候我们需要几个物种的好几个基因参与比对,但是基因的位置方向不一致,可以用到这个功能。
使用:把需要排序基因的物种的
fasta
格式的文件通通放入source文件夹中,执行就可以了。会在bulid
文件夹中生成相应文件名的,基因方向一致的fasta
格式的文件。注意: 基因顺序为首字母顺序排序。
python sort_seq.py
如果该程序帮助到您,请给一刻五角星收藏,感谢对开源的支持。