如何从FASTA中提取序列的一部分

2024-06-01 03:03:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我有来自体外SELEX实验的FASTA文件。理论上,所有读数应以相同的6个碱基(核心序列:GCTGCT)开始,且长度相等-27nt。事实上,有些读取甚至在核心序列的10个碱基之后开始,并继续执行21个nt的其余部分。我想用核心序列提取序列,而不管读取核心序列的位置如何。开始,然后将读数裁剪到27nt

示例(粗体区域是我要提取的区域:

读1GCTGCTTTCGCTTTCCTTGCGGCCAAAA

阅读2 GACGTGCTGCTGCTATTTTGCTTTCCTTGTCCATGAA

这里read1从核心序列开始,需要裁剪到27。这一部分很容易做到。问题在于read2中的核心序列开始较晚,我不能直接裁剪到27nt,而是在核心序列开始之后裁剪到27nt。我希望输出为FASTA格式

有没有人知道一个工具可以做到这一点,或者有其他建议


Tags: 文件区域示例核心序列理论fasta读数