预测核酸最小自由能结构

seqfold的Python项目详细描述


seqfold公司

预测核酸的最小自由能结构。在

seqfoldZuker, 1981动态规划算法的实现,是UNAFold/mfold的基础,其能量函数来自SantaLucia, 2004(DNA)和{}(RNA)。在

安装

pip install seqfold

使用

Python

^{pr2}$

CLI

usage: seqfold [-h] [-t FLOAT] [-v] [-l] [--version] SEQ

Predict the minimum free energy (kcal/mol) of a nucleic acid sequence

positional arguments:
  SEQ            nucleic acid sequence to fold

optional arguments:
  -h, --help     show this help message and exit
  -t FLOAT       temperature in Celsius
  -v, --verbose  log a dot-bracket of the MFE structure
  -l, --log      log each substructure in the MFE folding
  --version      show program's version number and exit

示例

$ seqfold GGGAGGTCGTTACATCTGGGTAACACCGGTACTGATCCGGTGACCTCCC -t 32
-17.1
$ seqfold GGGAGGTCGTTACATCTGGGTAACACCGGTACTGATCCGGTGACCTCCC -t 32 -v -l
GGGAGGTCGTTACATCTGGGTAACACCGGTACTGATCCGGTGACCTCCC
((((((((.((((......))))..((((.......)))).))))))))
   i    j     dg  description
   048   -2.2  STACK:GG/CC
   147   -2.2  STACK:GG/CC
   246   -1.4  STACK:GA/CT
   345   -1.4  STACK:AG/TC
   444   -2.2  STACK:GG/CC
   543   -1.6  STACK:GT/CA
   642   -1.4  STACK:TC/AG
   741   -0.5  BIFURCATION:4n/3h
   922   -1.1  STACK:TT/AA
  1021   -1.0  STACK:TA/AT
  1120   -1.6  STACK:AC/TG
  12193.0  HAIRPIN:CA/GG
  2539   -2.2  STACK:CC/GG
  2638   -2.3  STACK:CG/GC
  2737   -2.2  STACK:GG/CC
  28363.2  HAIRPIN:GT/CT
-17.1

注释

  • 核酸的类型,DNA或RNA,是从输入序列推断出来的。在
  • seqfold对输入序列不区分大小写。在
  • Python和CLI的默认温度都是37摄氏度。在

动机

二级结构预测用于选择primers for PCR,设计{a4},调节{a5}。在

虽然UNAFold和{a2}是核酸二级结构预测中应用最广泛的应用,但是它们的格式和许可证都是有限制的。seqfold是一个开源的,最小自由能二级结构预测的最小选择。在

seqfoldmfoldUNAFold
LicenseMITAcademic Non-commercial$200-36,000
OSLinux, MacOS, WindowsLinux, MacOSLinux, MacOS, Windows
Formatpython, CLI pythonCLI binaryCLI binary
Dependenciesnone(mfold_util)Perl, (gnuplot, glut/OpenGL)
Graphicalnoyes (output)yes (output)
Heterodimersnoyesyes
Constraintsnoyesyes

引用

用于开发这个图书馆的论文和其他文献如下。每一篇论文都列出了它与seqfold的关系。在

努西诺夫,1980年

Nussinov, Ruth, and Ann B. Jacobson. "Fast algorithm for predicting the secondary structure of single-stranded RNA." Proceedings of the National Academy of Sciences 77.11 (1980): 6309-6313.

动态规划方法的框架。它有一个概念上有帮助的“最大匹配”示例,该示例演示了只使用匹配或不匹配bp的简单序列的方法。在

祖克,1981年

Zuker, Michael, and Patrick Stiegler. "Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information." Nucleic acids research 9.1 (1981): 133-148.

在这个领域被引用最多的论文。扩展到Nussinov, 1980以上,采用最近邻方法计算能量,并考虑堆栈、凸起、内部环路和发夹。它们的数据结构和回溯方法都比Nussinov, 1980更直观。在

杰格,1989年

Jaeger, John A., Douglas H. Turner, and Michael Zuker. "Improved predictions of secondary structures for RNA." Proceedings of the National Academy of Sciences 86.20 (1989): 7706-7710.

Zuker和他的同事在1981年的论文中扩展了对多分支环和悬垂末端的惩罚。在

桑塔卢西亚,2004年

SantaLucia Jr, John, and Donald Hicks. "The thermodynamics of DNA structural motifs." Annu. Rev. Biophys. Biomol. Struct. 33 (2004): 415-440.

几乎所有seqfold中的DNA能量函数都来自这篇论文(多分支环除外)。提供堆栈、不匹配堆栈、终端堆栈和悬挂堆栈的相邻熵和焓。对于凸起、内部环路和发夹,同上。在

特纳,2009

Turner, Douglas H., and David H. Mathews. "NNDB: the nearest neighbor parameter database for predicting stability of nucleic acid secondary structure." Nucleic acids research 38.suppl_1 (2009): D280-D282.

RNA最近邻变熵和焓参数数据的来源。在/data中。在

沃德,2017年

Ward, M., Datta, A., Wise, M., & Mathews, D. H. (2017). Advanced multi-loop algorithms for RNA secondary structure prediction reveal that the simplest model is best. Nucleic acids research, 45(14), 8541-8550.

研究多分支循环的能量函数,验证Jaeger, 1989所采用的简单线性方法,该方法将运行时间保持在O(n³)。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
用户界面最佳所见即所得Java UI编辑器   java*servlet。xml与applicationContext。xml   java Android SDK在发布时挂起设备   java如何异步处理GAE数据存储争用?   java如何在redis中为SSO刷新令牌的过期时间?   java从全文搜索中删除索引   java CXFServlet初始启动   java在使用mavenspringbootplugin时向SpringBoot命令行start添加类路径   java工厂模式是正确的模式吗?   java-JVM信号链SIGPIPE   java JavaFx savely正在停止后台任务   整数Java打印数字的小数点   java如何连接到用户选择的SSID?   java组织。h2。jdbc。JdbcSQLException:列计数不匹配   java文件。toURI不编码加号