我是编程新手,在过去的几周里,我一直在研究一个生物信息学问题,进展非常有限。在
用一个大的同源基因序列来识别所有的同源基因(“1”=存在,“0”=不存在。有人告诉我,一个交互式的all vs all BLAST更新文件中的所有同源性/正交性,然后从数据库中删除这些内容,并重复该过程,直到无法执行更多相关的BLAST搜索,这可能是一种方法,但尽管我努力了,我还是不知道如何做到这一点。在可能的情况下,我希望在Python和/或Unix/Linux中执行此操作。在
谁能帮忙吗?在
例如:
如果我有3个生物体和4个基因,如果BLAST结果显示基因_1存在于生物体_1和2中;基因_2存在于所有生物体中,基因_3只存在于生物体_1中,基因_4只存在于生物体_3中。在
Gene_1 Gene_2 Gene_3 Gene_4
Org_1 1 1 1 0
Org_2 1 1 0 0
Org_3 0 1 0 1
如果我理解正确,您需要获得以下信息:
-哪些是同源/同源基因
-在威奇物种中
有一个程序,几乎可以完成所有这些,让我给你介绍一下SiLiX
http://lbbe.univ-lyon1.fr/SiLiX
你可以下载它并将其参数化为你的95%身份,你“给它”的结果,你的所有反对所有爆炸。你会得到一个包含你想要的信息的文件!在
该文件很容易解析(尤其是在python中),因此您可以从中提取所需的所有信息。所以你可以从中创建矩阵。在
相关问题 更多 >
编程相关推荐