生物信息学的几种小方法
smallBixTools的Python项目详细描述
#小型双工工具 生物信息学的几个小功能
#smallbixtools为生物信息学提供一些小功能。
有关详细信息,请参阅自述文件。
回购地点:
https://bitbucket.org/hivdiversity/small_bix_tools
文件: https://small-bix-tools.readthedocs.io/en/latest/
功能列表: (不完整)
从面板获取区域:
从fasta格式的文件中分割区域,将它们连接在一起,并将生成的fasta文件写入给定位置。 一个示例调用可能是:从面板获取区域(“test.fasta”,0,10],[20,30,“/tmp”,“outfile.fasta”) 对于输入文件中的每个序列:“test.fasta”,将0到10之间的区域与 区域从20到30,并将结果写入文件“/tmp/outfile.fasta”。
查找范围
在数值列表中查找连续范围。 例如:数据=[1,2,3,4,8,9,10] 查找范围(数据)将返回: 1,2,3,4],[8,9,10
hamdist
在对齐序列后使用。 这将计算等长str1和str2之间的差异数 输入序列的顺序无关紧要。
快速切换到DCT
给定文件名内容的字典。字典格式: {序列id:sequence字符串,id:sequence等等}
从DCT到FASTA
param d: | dictionary in the form: {sequence_id: sequence_string, id_2: sequence_2, etc.} |
---|---|
param fn: | The file name to write the fasta formatted file to. |
return: | Returns True if successfully wrote to file. |
查找重复的ID
客户分布
连字符到下划线快速a
自动删除重复项
尝试自动从指定文件中删除重复序列。将结果写入输出文件 明确规定。使用biopython seqio分析指定的in文件。用下划线替换序列id中的空格。 对所有发现的序列进行分析,对于每一个序列,检查它的密钥是否已经存在于累加中,如果 是否:检查每个指定的序列是否相同。如果他们有相同的钥匙,相同的序列- 然后保留遇到的第二个实例。解析完文件后-写入指定的所有输出文件 找到的序列 如果在执行期间发生错误,将引发异常。
建造顺序
#https://www.biostars.org/p/14026/
自有制造商
将文件分割成时间点
尺寸选择器
PY2_Fasta_Iter
来自布伦特·佩德森:https://www.biostars.org/p/710/#1412 给了一个fasta文件。产生头的元组,序列
PY3_fasta_iter
改自布伦特·佩德森:https://www.biostars.org/p/710/#1412 给了一个fasta文件。产生头的元组,序列
在FastA上将“计数”转换为“频率”
以这种方式运行vSearch时: vSearch–群集快速{}–ID 0.97–大小-质心{} 我们得到一个centroids.fasta文件,其seqid标题行如下: >;attccggtatct_9;大小=1432; >;catcatcgtaag_14;大小=1; 等。 此方法将这些计数值转换为频率。 注意:序列ID中各节之间的分隔符必须为“;”。 序列id中必须有一个节,该节正好有:“size=x”,其中x是一个整数。 它必须由“;”包围
countninprimer
Motif Binner2要求指定底漆ID长度和底漆长度的值。不得不这么做真烦人 为许多字符串计算这个值。所以,我写这个是为了自救。 一个引物序列的例子可能是:nnnnnnn aaggccaaaggaccttagagactg 我们想知道有多少个n,还有多少其他字符,以及 总长度是。
比较快速文件
比较两个fasta文件,看它们是否包含相同的数据。序列的名称必须相同。我们检查一下 文件1中的序列A与文件2中的序列A相同。 文件的顺序无关紧要。 考虑差距。
解开seqid的hash
调用长度超过253的mafft-sequence id时会被截断。如果第一个 seqid的253个字符是相同的,后面还有一个差异。 为了解决这个问题-我们可以拥有序列ID,并为mafft编写一个新的.fasta文件,然后 战后把序列号翻译回来德勤。
此函数在之后执行翻译。
这是一个兄弟函数:make_hash_of_seqids。
将在出错时引发异常
将seqid设为hash
调用长度超过253的mafft-sequence id时会被截断。如果第一个 seqid的253个字符是相同的,后面还有一个差异。 为了解决这个问题-我们可以拥有序列ID,并为mafft编写一个新的.fasta文件,然后 之后将序列id转换回。
此函数执行哈希运算并写入文件。
这是一个兄弟函数,用于:取消对seqid的hash的生成
将在出错时引发异常