解析两个文件以汇集数据并创建新的Fasta文件

class Protein: def __init__(self, Name, Synonyms, Chromosome): self.Name = Name self.Synonyms = Synonyms self.Chromosome = Chromosome Proteins = [] with open('protein-coding_gene.txt', 'r') as file: for line in file: parseline = line.rstrip().split("\t") Name = parseline[2] Synonyms = parseline[6] Chromosome = parseline[7] Proteins.append(Protein(Name, Synonyms, Chromosome)) f = open("human.fa") seqs = {} for i in f: line = i.strip() if line[0] == '>': l = line.split() gene = l[0][1:] seqs[gene] = '' else: seqs[gene] = seqs[gene] + line f.close() for p in Proteins: print(p.Name, p.Synonyms, p.Chromosome, sep=",") for name, seq in seqs.items(): print (name, seq) from Bio import SeqIO newhuman = [] SeqIO.write[newhuman, "fastaML.fa", "fasta")

1条回答

网友

1楼 · 发布于 2024-04-26 17:31:43

所需格式不是有效的fasta格式。但是如果您仍然希望在fastaML.fa中有相同的输出，那么不应该使用SeqIO.write（）方法。相反，您应该使用基本的文件处理

class Protein:
    
    def __init__(self, Name, Synonyms, Chromosome):
        self.Name = Name
        self.Synonyms = Synonyms
        self.Chromosome = Chromosome

    def add_sequence(self, Sequence):
        self.Sequence = Sequence
             
Proteins = []
with open('protein-coding_gene.txt', 'r') as file:
    for line in file:
        parseline = line.rstrip().split(" ")
        Name = parseline[0]
        Synonyms = parseline[1:4]
        Chromosome = parseline[4]
        Proteins.append(Protein(">"+Name, Synonyms, Chromosome))


f = open("human.fa")

seqs = {}
gene = ""
for i in f:
    line = i.strip()
    if line[0] == '>':
        l = line.split()
        gene = l[0]
        seqs[gene] = l[1]
    else:
        seqs[gene] = seqs[gene] + line

        
f.close()

for p in Proteins:
    for name, seq in seqs.items():
        if(p.Name == name):
            p.add_sequence(seq)     

with open('fastaML.fa', 'w') as file:
    for p in Proteins:
        file.write(p.Name + " " + p.Synonyms[0] + " " + p.Synonyms[1] + " " + p.Synonyms[2] + " " + p.Chromosome + " " + p.Sequence + "\n")
        #I have used single space here. You can modify it as per your need.

Here is a working repl for your reference

相关问题更多 >

编程相关推荐

热门问题

热门文章