生物信息学的几种小方法

smallBixTools的Python项目详细描述


#小型双工工具 生物信息学的几个小功能

#smallbixtools为生物信息学提供一些小功能。

有关详细信息,请参阅自述文件。

回购地点:

https://bitbucket.org/hivdiversity/small_bix_tools

文件: https://small-bix-tools.readthedocs.io/en/latest/

功能列表: (不完整)

从面板获取区域:

从fasta格式的文件中分割区域,将它们连接在一起,并将生成的fasta文件写入给定位置。 一个示例调用可能是:从面板获取区域(“test.fasta”,0,10],[20,30,“/tmp”,“outfile.fasta”) 对于输入文件中的每个序列:“test.fasta”,将0到10之间的区域与 区域从20到30,并将结果写入文件“/tmp/outfile.fasta”。

查找范围

在数值列表中查找连续范围。 例如:数据=[1,2,3,4,8,9,10] 查找范围(数据)将返回: 1,2,3,4],[8,9,10

hamdist

在对齐序列后使用。 这将计算等长str1和str2之间的差异数 输入序列的顺序无关紧要。

快速切换到DCT

给定文件名内容的字典。字典格式: {序列id:sequence字符串,id:sequence等等}

从DCT到FASTA

param d:dictionary in the form: {sequence_id: sequence_string, id_2: sequence_2, etc.}
param fn:The file name to write the fasta formatted file to.
return:Returns True if successfully wrote to file.

查找重复的ID

客户分布

连字符到下划线快速a

自动删除重复项

尝试自动从指定文件中删除重复序列。将结果写入输出文件 明确规定。使用biopython seqio分析指定的in文件。用下划线替换序列id中的空格。 对所有发现的序列进行分析,对于每一个序列,检查它的密钥是否已经存在于累加中,如果 是否:检查每个指定的序列是否相同。如果他们有相同的钥匙,相同的序列- 然后保留遇到的第二个实例。解析完文件后-写入指定的所有输出文件 找到的序列 如果在执行期间发生错误,将引发异常。

建造顺序

#https://www.biostars.org/p/14026/

自有制造商

将文件分割成时间点

尺寸选择器

PY2_Fasta_Iter

来自布伦特·佩德森:https://www.biostars.org/p/710/#1412 给了一个fasta文件。产生头的元组,序列

PY3_fasta_iter

改自布伦特·佩德森:https://www.biostars.org/p/710/#1412 给了一个fasta文件。产生头的元组,序列

在FastA上将“计数”转换为“频率”

以这种方式运行vSearch时: vSearch–群集快速{}–ID 0.97–大小-质心{} 我们得到一个centroids.fasta文件,其seqid标题行如下: >;attccggtatct_9;大小=1432; >;catcatcgtaag_14;大小=1; 等。 此方法将这些计数值转换为频率。 注意:序列ID中各节之间的分隔符必须为“;”。 序列id中必须有一个节,该节正好有:“size=x”,其中x是一个整数。 它必须由“;”包围

countninprimer

Motif Binner2要求指定底漆ID长度和底漆长度的值。不得不这么做真烦人 为许多字符串计算这个值。所以,我写这个是为了自救。 一个引物序列的例子可能是:nnnnnnn aaggccaaaggaccttagagactg 我们想知道有多少个n,还有多少其他字符,以及 总长度是。

比较快速文件

比较两个fasta文件,看它们是否包含相同的数据。序列的名称必须相同。我们检查一下 文件1中的序列A与文件2中的序列A相同。 文件的顺序无关紧要。 考虑差距。

解开seqid的hash

调用长度超过253的mafft-sequence id时会被截断。如果第一个 seqid的253个字符是相同的,后面还有一个差异。 为了解决这个问题-我们可以拥有序列ID,并为mafft编写一个新的.fasta文件,然后 战后把序列号翻译回来德勤。

此函数在之后执行翻译。

这是一个兄弟函数:make_hash_of_seqids。

将在出错时引发异常

将seqid设为hash

调用长度超过253的mafft-sequence id时会被截断。如果第一个 seqid的253个字符是相同的,后面还有一个差异。 为了解决这个问题-我们可以拥有序列ID,并为mafft编写一个新的.fasta文件,然后 之后将序列id转换回。

此函数执行哈希运算并写入文件。

这是一个兄弟函数,用于:取消对seqid的hash的生成

将在出错时引发异常

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java启动时加载值示例代码(xml)   java什么是视图索引?当视图组将视图添加到索引1时会发生什么   java如何调用HttpUrlConnection disconnect()   java将日期转换为毫秒,givse错误结果   java正在处理“.”上的IP地址拆分字符串性格   java proguard不创建输出jar   编译中的Java默认修饰符   java中的管道I/O流   java为集合返回的最佳迭代器类型?拆分器,流?   java如何修改JTextArea中tab键的行为?   来自Android Studio HTML文档的外部应用程序中的java Open Local PDF   组件和轻量级/重量级之间的java差异   java在有向图中查找模式   python可以创建运行服务器端程序的Java Web Start应用程序吗?   NiFi中基于内容的java更新属性