基于物种特异性密码子使用分布的氨基酸反向翻译和dna优化工具。
codon-harmon的Python项目详细描述
密码子和声
基于物种特异性密码子使用分布的氨基酸反向翻译和dna优化工具。 物种特定数据可以在Codon Usage Database上使用NCBI Taxonomy databaseid(例如413997)或有机体的拉丁名(例如大肠杆菌b)找到。可以将物种名称映射到分类IDhere。
功能
- 将输入的氨基酸序列反向翻译成dna。
- 计算主机的每a a密码子使用配置文件-使用的密码子少于指定的阈值(默认为10%)将被删除。
- 将反向翻译的dna序列与宿主基因进行比较,确定哪些密码子被过度使用/未充分使用。
- 根据宿主轮廓随机突变密码子。
- 根据相对于宿主的密码子适应指数对序列进行排序
- 处理DNA以删除不需要的特征:
- 滑动窗口内和整个序列中的高GC含量
- 不需要的限制站点
- 交替启动位置(富含GA区域ATG/GTG/TTG上游18 bp)
- 3个连续的相同密码子和9-mer重复片段
- 连续4个(可变)以上相同bps的区域(“局部均聚物”)
- rna发夹,通过在序列中寻找10个带有反向补体(包括摆动碱基)的mer来检测
- RNA剪接位点,通过与一致的供体和受体位点序列的相似性检测
该过程从步骤3开始重复指定的循环次数(默认值为1000),或者直到当前DNA和宿主配置文件的每AA密码子配置文件匹配(在耐受范围内)。
未来工作
- 更高级的rna结构去除
- CONTRAfold–暂时过度杀戮
- nupack–暂时过度杀戮
历史记录
0.9.2(2019-02-06)
- pypi上的第一个版本。
0.9.4(2019-02-20)
- 添加了全套测试,发现并修复了错误
- 包装设置的调整-现在可以实际安装
0.9.5(2019-02-25)
- 增加对rna剪接位点检测和移除的支持
0.9.6(2019-02-28)
- 更新报告和显示优化失败的方式
- 通过进程池并行化
1.0.0(2019-03-06)
- 除了从Internet获取数据外,还可以使用脱机表
- 全套测试和文档
- 在实际序列上测试