2024-06-06 06:04:06 发布
网友
我有一个单蛋白的列表,其中有一个相应的感兴趣的残基(例如Q7TQ48\u48S442)。我需要检索蛋白质序列中特定位点周围的+/-6残基(在本例中,我需要的序列是diaeaSEERQQE)。 你能用Python、R或者一个已经可用的web工具为id+感兴趣的剩余部分列表提供一个方法吗? 谢谢, 伊曼纽尔
如果我从https://www.uniprot.org/uploadlists/向UniProt输入一个蛋白质id列表,或者上传一个文件,我会得到一个结果表。在表格的顶部,有一个选项允许您选择列-一个选项是肽序列(目前还不需要编程-只需上传你感兴趣的UID列表即可
现在,要提取特定的序列,可以在R中使用substr命令来完成。在这里,我们想从两端加/减6:
substr
len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))
在您的示例中,ind = 442
ind = 442
为了让这一切顺利,你需要
完全在R内完成是可能的-我曾经做过,但我不确定你是否需要它,除非你需要整个事情都自动化。如果你需要的话,我建议你去看看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我不经常使用Bioconductor,所以我对包装不熟悉。当我以前使用R来获取UniProt数据时,我所追求的在tablular输出中是不可用的,我不得不修改我的代码来获取我所追求的数据。 希望生物导体的解决方案比我做的容易
如果我从https://www.uniprot.org/uploadlists/向UniProt输入一个蛋白质id列表,或者上传一个文件,我会得到一个结果表。在表格的顶部,有一个选项允许您选择列-一个选项是肽序列(目前还不需要编程-只需上传你感兴趣的UID列表即可
现在,要提取特定的序列,可以在R中使用
substr
命令来完成。在这里,我们想从两端加/减6:在您的示例中,
ind = 442
为了让这一切顺利,你需要
完全在R内完成是可能的-我曾经做过,但我不确定你是否需要它,除非你需要整个事情都自动化。如果你需要的话,我建议你去看看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我不经常使用Bioconductor,所以我对包装不熟悉。当我以前使用R来获取UniProt数据时,我所追求的在tablular输出中是不可用的,我不得不修改我的代码来获取我所追求的数据。 希望生物导体的解决方案比我做的容易
相关问题 更多 >
编程相关推荐