正则表达式 Python Fasta

0 投票

3 回答

2231 浏览

提问于 2025-04-17 16:16

感谢你之前的建议，

我又遇到了一个正则表达式的问题：

现在我有一个这样的列表：

*7  3   279 0
*33 2   254 0.0233918128654971
*39 2   276 0.027431421446384

还有一个包含DNA序列的文件，格式是Fasta：

编辑重新格式化的行

>OCTU1
GCTTGTCTCAAAGATTAAGCCATGCATGTATAAGCACAAGCCTAAAATGGTGAAGCCGCGAATAGCTCATTACAACAGTCGTAGTTTATTGGAAAGTTCACTATGGATAACTGTGGTAATTCTAGAGCTAATACATGTTCCAATCCTCGACTCACGGAGAGGTGCATTTATTAGAACAAAGCTGATCAGACTATGTCTGTCTCAGGTTGACTCTGAATAACTTTGCTAATCGCACAGTCTTTGTACTGGCGATGTATCTTTCATGCTATGTA
>OCTU2
GCTGCTTCCTTGGATGTGGTAGCCGTTTCTCAGGCTCCCTCTCCGGAATCGAACCCTATTCCCCGTTACCCGTTCAACCATGGTAGGCCCTACTACCATCAAAGTTGATAGGGCAGATATTTGAAAGACATCGCCGCACAAAGGCTATGCGATTAGCAAAGTTATTAGATCAACGACGCAGCGATCGGCTTTGACTAATAAATCACCCCTCCAGTTGGGGACTTTTACATGTATTAGCTCTAGAATTACCACAGTTATCCATTAGTGAAGTACCTTCCAATAAACTATACTGTTTAATGAGCCATTCGCGGTTTCACCGTAAAATTAGGTTGTCTTAGACATGCATGGCTTAATCTTTGTAGACAAGC

我需要在Fasta文件中找到列表里的数字，比如说7或33（例如，>OCTU7和>OCTU33），然后把这些Fasta序列复制到另一个文件里，只保留在列表中的序列，这是我的脚本：

regex=re.compile(r'.+\d+\s+')
OCTU=b.readlines()
while OCTU:
    for line in a:
        if regex.match(OCTU)==line:
              c.write(OCTU)

这个脚本看起来能运行，但我觉得模式不对，因为生成的文件是空的。

提前感谢你宝贵的建议。

正则表达式数据提取文件处理脚本调试 DNA序列生物信息学 fasta格式序列匹配

3 个回答

coding=utf8

上面的标签是用来定义这个文档的编码方式，主要是为了兼容Python 2.x版本。

import re

regex = r">.+\n[acgtnACGTN\n]+"

test_str = (">AB000263 |acc=AB000263|descr=Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.|len=368\n"
    "ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC\n"
    "CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC\n"
    "CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG\n"
    "AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC\n"
    "CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG\n"
    "TTTAATTACAGACCTGAA")

matches = re.finditer(regex, test_str)

for matchNum, match in enumerate(matches):
    matchNum = matchNum + 1

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1

        print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

注意：为了兼容Python 2.7，使用ur""来前缀正则表达式，使用u""来前缀测试字符串和替换内容。

回答于 2025-04-17 由 Python大师

分享举报

你可能想用Biopython来解析fasta文件。

这样你就可以提取出数字，然后在你的列表中查找，比较可靠地访问序列和序列名称……如果fasta文件有换行，以上的方法可能会遇到问题……

import collections
from Bio import SeqIO

infile = "yourfastafile.fasta"
outfile = "desired_outfilename.fasta"

dct = collections.OrderedDict()
for record in SeqIO.parse(open(infile), "fasta"):
    dct[record.description()] = str(record.seq).upper()

for k,v in dct.items():
    if int(k[4:]) in seta: #from answer above
        with open(outfile, "a") as handle:
            handle.write(">" + k + "\n" + str(v) + "\n")

回答于 2025-04-17 由 Python大师

分享举报

你可以先从文件 a 中收集所有的ID号码，放到一个集合里，这样后面查找的时候会更快：

seta = set()
regexa = re.compile(r'\*(\d+)') #matches asterisk followed by digits, captures digits
for line in a:
    m = regexa.match(line)      #looks for match at start of line
    if m:
        seta.add(m.group(1))

然后遍历文件b。在循环中使用 b.next() 来获取第二行，也就是序列所在的行。

regexb = re.compile(r'>OCTU(\d+)')  #matches ">OCTU" followed by digits, captures digits
for line in b:
    m = regexb.match(line)
    if m:
        sequence = b.next() 
        if m.group(1) in seta:
            c.write(line)
            c.write(sequence)

回答于 2025-04-17 由 Python大师

分享举报

正则表达式 Python Fasta

3 个回答

coding=utf8

上面的标签是用来定义这个文档的编码方式，主要是为了兼容Python 2.x版本。

注意：为了兼容Python 2.7，使用ur""来前缀正则表达式，使用u""来前缀测试字符串和替换内容。

撰写回答