预测核酸最小自由能结构
seqfold的Python项目详细描述
seqfold公司
预测核酸的最小自由能结构。在
seqfold
是Zuker, 1981
动态规划算法的实现,是UNAFold/mfold的基础,其能量函数来自SantaLucia, 2004
(DNA)和{
安装
pip install seqfold
使用
Python
^{pr2}$CLI
usage: seqfold [-h] [-t FLOAT] [-v] [-l] [--version] SEQ Predict the minimum free energy (kcal/mol) of a nucleic acid sequence positional arguments: SEQ nucleic acid sequence to fold optional arguments: -h, --help show this help message and exit -t FLOAT temperature in Celsius -v, --verbose log a dot-bracket of the MFE structure -l, --log log each substructure in the MFE folding --version show program's version number and exit
示例
$ seqfold GGGAGGTCGTTACATCTGGGTAACACCGGTACTGATCCGGTGACCTCCC -t 32
-17.1
$ seqfold GGGAGGTCGTTACATCTGGGTAACACCGGTACTGATCCGGTGACCTCCC -t 32 -v -l GGGAGGTCGTTACATCTGGGTAACACCGGTACTGATCCGGTGACCTCCC ((((((((.((((......))))..((((.......)))).)))))))) i j dg description 048 -2.2 STACK:GG/CC 147 -2.2 STACK:GG/CC 246 -1.4 STACK:GA/CT 345 -1.4 STACK:AG/TC 444 -2.2 STACK:GG/CC 543 -1.6 STACK:GT/CA 642 -1.4 STACK:TC/AG 741 -0.5 BIFURCATION:4n/3h 922 -1.1 STACK:TT/AA 1021 -1.0 STACK:TA/AT 1120 -1.6 STACK:AC/TG 12193.0 HAIRPIN:CA/GG 2539 -2.2 STACK:CC/GG 2638 -2.3 STACK:CG/GC 2737 -2.2 STACK:GG/CC 28363.2 HAIRPIN:GT/CT -17.1
注释
- 核酸的类型,DNA或RNA,是从输入序列推断出来的。在
seqfold
对输入序列不区分大小写。在- Python和CLI的默认温度都是37摄氏度。在
动机
二级结构预测用于选择primers for PCR,设计{a4},调节{a5}。在
虽然UNAFold和{a2}是核酸二级结构预测中应用最广泛的应用,但是它们的格式和许可证都是有限制的。seqfold
是一个开源的,最小自由能二级结构预测的最小选择。在
seqfold | mfold | UNAFold | |
---|---|---|---|
License | MIT | Academic Non-commercial | $200-36,000 |
OS | Linux, MacOS, Windows | Linux, MacOS | Linux, MacOS, Windows |
Format | python, CLI python | CLI binary | CLI binary |
Dependencies | none | (mfold_util) | Perl, (gnuplot, glut/OpenGL) |
Graphical | no | yes (output) | yes (output) |
Heterodimers | no | yes | yes |
Constraints | no | yes | yes |
引用
用于开发这个图书馆的论文和其他文献如下。每一篇论文都列出了它与seqfold
的关系。在
努西诺夫,1980年
Nussinov, Ruth, and Ann B. Jacobson. "Fast algorithm for predicting the secondary structure of single-stranded RNA." Proceedings of the National Academy of Sciences 77.11 (1980): 6309-6313.
动态规划方法的框架。它有一个概念上有帮助的“最大匹配”示例,该示例演示了只使用匹配或不匹配bp的简单序列的方法。在
祖克,1981年
Zuker, Michael, and Patrick Stiegler. "Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information." Nucleic acids research 9.1 (1981): 133-148.
在这个领域被引用最多的论文。扩展到Nussinov, 1980
以上,采用最近邻方法计算能量,并考虑堆栈、凸起、内部环路和发夹。它们的数据结构和回溯方法都比Nussinov, 1980
更直观。在
杰格,1989年
Jaeger, John A., Douglas H. Turner, and Michael Zuker. "Improved predictions of secondary structures for RNA." Proceedings of the National Academy of Sciences 86.20 (1989): 7706-7710.
Zuker和他的同事在1981年的论文中扩展了对多分支环和悬垂末端的惩罚。在
桑塔卢西亚,2004年
SantaLucia Jr, John, and Donald Hicks. "The thermodynamics of DNA structural motifs." Annu. Rev. Biophys. Biomol. Struct. 33 (2004): 415-440.
几乎所有seqfold
中的DNA能量函数都来自这篇论文(多分支环除外)。提供堆栈、不匹配堆栈、终端堆栈和悬挂堆栈的相邻熵和焓。对于凸起、内部环路和发夹,同上。在
特纳,2009
Turner, Douglas H., and David H. Mathews. "NNDB: the nearest neighbor parameter database for predicting stability of nucleic acid secondary structure." Nucleic acids research 38.suppl_1 (2009): D280-D282.
RNA最近邻变熵和焓参数数据的来源。在/data
中。在
沃德,2017年
Ward, M., Datta, A., Wise, M., & Mathews, D. H. (2017). Advanced multi-loop algorithms for RNA secondary structure prediction reveal that the simplest model is best. Nucleic acids research, 45(14), 8541-8550.
研究多分支循环的能量函数,验证Jaeger, 1989
所采用的简单线性方法,该方法将运行时间保持在O(n³)
。在
- 项目
标签: