管理一个完整的工作流程来分析密码子使用偏差
BCAWT的Python项目详细描述
bcaw:用于分子进化密码子使用偏差分析的自动化工具
需求声明
没有任何工具可以让用户运行一个完整的自动化工作流来进行密码子使用偏差分析。使用python 3.7bcaw工具(bio密码子分析工作流工具)开发了解决这个问题的工具。 bcaw工具管理一个完整的自动化工作流程,分析任何生物体基因和基因组的密码子使用偏好。具有最低的编码技能。
有关密码子使用偏差以及bcawtsee中使用的方程式的详细信息。
依赖关系
1-生物疗法
2-熊猫
3-计算机辅助教学
4-短促
5-matplotlib
6-纽比
7-王子
安装说明
使用pip
pip install BCAWT
注意:python>;=3.7是必需的。
贡献指南
欢迎向本软件捐款
对于bug和建议,最有效的方法是在github问题跟踪器上提出问题。 Github允许您对问题进行分类,以便我们知道它是错误报告、功能请求还是对作者的反馈。
如果您希望对代码进行一些更改,那么应该提交一个pull request 如何创建拉取请求?documentation on pull requests
用法
自动测试
注意这里我们尝试测试bcaw工具的结果,而不是模块,对于测试包中的模块,请使用test.py
首先下载包含编码序列的fasta文件(您可以从NCBI数据库下载任何包含要分析的基因序列的fasta文件)。
或者下载文件Test file
然后运行(它将自动对结果文件运行测试):
from BCAWT import BCAWT_auto_test
BCAWT_auto_test.auto_test(["Ecoli.fasta"])
BCAWT_auto_test.auto_check_files()
>> test is completed 'successfully'
主要用途
from BCAWT import BCAWT
BCAWT.BCAW(['Ecoli.fasta'],'result_folder',genetic_code_=11,Auto=True)
输入
main_fasta_file (list): list of string of the file's path or file-like object
save_folder_name (str): folder name where the result will be saved
ref_fasta_file (list): list of string of the file's path or file-like object, default = None
Auto (bool): default = False, if ref_fasta_file not None.
genetic_code_ (int) : default = 1, The Genetic Codes number described by [NCBI](https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi)
from BCAWT import BCAWT
BCAWT.BCAW(['Ecoli.fasta'],'result_folder',genetic_code_=11,Auto=True)
main_fasta_file (list): list of string of the file's path or file-like object
save_folder_name (str): folder name where the result will be saved
ref_fasta_file (list): list of string of the file's path or file-like object, default = None
Auto (bool): default = False, if ref_fasta_file not None.
genetic_code_ (int) : default = 1, The Genetic Codes number described by [NCBI](https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi)
重要提示:bcaw工具期望编码序列作为输入而不是基因,有关它们之间的区别的更多信息,可以查看here
获取感兴趣物种的fasta文件
假设感兴趣的物种是大肠杆菌str.k-12亚群。MG1655:
1-转到NCBI数据库。
2-在搜索栏中写入(大肠杆菌str.k-12 substr.MG1655,全基因组)。
3-选择一个结果(取决于你想在你的分析中得到什么)。
3-在页面右侧,您将找到send to选项。从发送到选择编码序列然后fasta核苷酸最后,按创建文件
对于NCBI Genomes Download (FTP) FAQ
输出
预期的csv文件输出
CSV file name | Description |
---|---|
ATCG | contains ; gene id, GC, GC1, GC2, GC3, GC12, AT, AT3 A3, T3, C3, G3, GRAVY, AROMO and, Gene Length |
CA_RSCU | contains ; each RSCU result for each codon in each genes |
CA_RSCUcodons | contains ; correspondence analysis first 4 axis for each codon |
CA_RSCUgenes | contains ; correspondence analysis first 4 axis for each gene |
CAI | contains ; gene id and CAI index |
ENc | contains ; gene id and ENc index. |
P2-index | contains ; gene id and P2 index |
optimal codons | contains; putative optimal codons detected |
大肠杆菌编码序列bcaw工具分析的所有输出图
文件
1-密码子使用偏见简介CUB introduction
有关bcaw工具中用于分析cub的公式的详细信息Equations
有关输出的详细信息>;>
有关使用的缩写词的详细信息>;Abbreviations table