有没有一种简单的方法可以输出fasta文件的唯一基因id？

2024-05-14 10:00:51 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在使用command-line中的nano进行一个项目。我有一个包含40000多个基因的fasta文件，我只想提取唯一的基因id。我正在使用以下命令：

from Bio import SeqIO
import sys
import re 

    fasta_file = (sys.argv[1])
    for myfile in SeqIO.parse(fasta_file, "fasta"):
      if len(myfile) > 250:
       gene_id = myfile.id
       mylist = re.match(r"H149xcV_[^\W_]+_[^\W_]+_[^\W_])_[^\W_]+", gene_id)
       print (">"+list.group(1))

这为我提供了相同基因的复制品。其产量约为40000个基因。我已经发布了一个示例：

>H149xcV_Fge342_r3_h2
>H149xcV_bTr423_r3_h2
>H149xcV_kN893_r3_h2
>H149xcV_DNp021_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_SRt424234_r3_h2
>H149xcV_Fge342_r3_h2
>H149xcV_Fge342_r3_h2

是否有方法重新格式化我的命令，以便我只接收唯一的基因id：

>H149xcV_Fge342_r3_h2
>H149xcV_bTr423_r3_h2
>H149xcV_kN893_r3_h2
>H149xcV_DNp021_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_SRt424234_r3_h2

Tags： import 命令 re id sys 基因 h2 myfile

0条回答

目前没有回答

有没有一种简单的方法可以输出fasta文件的唯一基因id？

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有一种简单的方法可以输出fasta文件的唯一基因id？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >