短核苷酸序列的生物ython-blast参数

2024-06-17 09:38:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图用NCBIWWW.biopython运行blastn。
我正在对给定的示例文件使用qblast函数。
我定义了一些方法,当我的fasta包含足够长的序列时,一切都像一个符咒。唯一失败的情况是当我需要爆炸来自Illumina测序的读数太短时。所以我想说这可能是因为在提交工作时没有自动重新定义爆破参数。在

我尽我所能接近爆炸短条件(见表C2从here)没有任何成功。在

看来我不能输入正确的参数。在

我想我越接近工作的情况是:

result_handle = NCBIWWW.qblast("blastn", "nr",
                                fastaSequence,
                                word_size=7,
                                gapcosts='5 2',
                                nucl_reward=1,
                                nucl_penalty='-3',
                                expect=1000)

谢谢你给我的建议。在

我的fasta read示例如下:

^{pr2}$

我得到的错误是:

>ValueError: Error message from NCBI: Message ID#24 Error: Failed to read the Blast query: Protein FASTA provided for nucleotide sequence

当我看一下this page时,我的问题似乎是关于如何确定阈值,但显然,到目前为止,我并没有设法使它起作用。在

谢谢你的帮助。在


Tags: 文件函数示例read参数定义情况error
2条回答

此代码适用于我(Biopython 1.64):

^{1}$

也许你通过了一个错误的快速顺序。Biopython没有从SeqRecords(或任何东西)到普通FASTA的任何转换。您必须提供如上所示的查询。在

Blast确定序列是核苷酸还是蛋白质,读取前几个字符。如果它们在“ACGT”中高于阈值,那就是核苷酸,否则就是蛋白质。因此,你的序列处于100%的“ACGT”阈值,不可能被解释为蛋白质。在

有一次我在爆破肽方面遇到了问题,这似乎是一个正确选择参数的问题。我花了很长时间才弄清楚它们到底应该是什么(各种网站上不一致且稀少的数据,包括这方面NCBI文档中相当复杂的数据)。我知道你对爆破核苷酸序列感兴趣,但你可能会找到你的解决方案,同时看看下面的代码。尤其要注意参数filtercomposition_based_statisticsword_size和{}。对我来说,他们似乎是至关重要的。在

^{1}$

相关问题 更多 >