匹配多行tex块的正则表达式

3条回答

网友

1楼 · 编辑于 2024-04-24 15:23:01

如果每个文件只有一个氨基酸序列，我就不会使用正则表达式。就像这样：

def read_amino_acid_sequence(path):
    with open(path) as sequence_file:
        title = sequence_file.readline() # read 1st line
        aminoacid_sequence = sequence_file.read() # read the rest

    # some cleanup, if necessary
    title = title.strip() # remove trailing white spaces and newline
    aminoacid_sequence = aminoacid_sequence.replace(" ","").replace("\n","")
    return title, aminoacid_sequence

网友

2楼 · 编辑于 2024-04-24 15:23:01

试试这个：

re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)

我认为你最大的问题是你期望^和$锚匹配换行符，但它们不匹配。在多行模式下，^立即匹配换行符后面的位置，$立即匹配换行符前面的位置。

还要注意，换行符可以由换行符（\n）、回车符（\r）或回车符+换行符（\r\n）组成。如果不确定目标文本仅使用换行符，则应使用此更具包容性的regex版本：

re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)

顺便说一句，您不想在这里使用DOTALL修饰符；您所依赖的事实是，除了换行符之外，该点匹配所有项。

网友
3楼 · 编辑于 2024-04-24 15:23:01

这将起作用：

>>> import re
>>> rx_sequence=re.compile(r"^(.+?)\n\n((?:[A-Z]+\n)+)",re.MULTILINE)
>>> rx_blanks=re.compile(r"\W+") # to remove blanks and newlines
>>> text="""Some varying text1
...
... AAABBBBBBCCCCCCDDDDDDD
... EEEEEEEFFFFFFFFGGGGGGG
... HHHHHHIIIIIJJJJJJJKKKK
...
... Some varying text 2
...
... LLLLLMMMMMMNNNNNNNOOOO
... PPPPPPPQQQQQQRRRRRRSSS
... TTTTTUUUUUVVVVVVWWWWWW
... """
>>> for match in rx_sequence.finditer(text):
...   title, sequence = match.groups()
...   title = title.strip()
...   sequence = rx_blanks.sub("",sequence)
...   print "Title:",title
...   print "Sequence:",sequence
...   print
...
Title: Some varying text1
Sequence: AAABBBBBBCCCCCCDDDDDDDEEEEEEEFFFFFFFFGGGGGGGHHHHHHIIIIIJJJJJJJKKKK

Title: Some varying text 2
Sequence: LLLLLMMMMMMNNNNNNNOOOOPPPPPPPQQQQQQRRRRRRSSSTTTTTUUUUUVVVVVVWWWWWW

对这个正则表达式的一些解释可能很有用：^(.+?)\n\n((?:[A-Z]+\n)+)

第一个字符（^）表示“从行首开始”。请注意，它与换行符本身不匹配（与$相同：它的意思是“就在换行符之前”，但它与换行符本身不匹配）。
然后(.+?)\n\n表示“匹配尽可能少的字符（允许所有字符），直到达到两个换行符为止”。结果（没有换行）放在第一组中。
[A-Z]+\n意思是“匹配尽可能多的大写字母，直到到达换行符。这定义了我将称之为文本行的内容。
((?:文本行)+)表示匹配一个或多个文本行，但不要将每一行放在一个组中。相反，将所有的文本行放在一组中。
如果要在结尾强制使用双换行符，可以在正则表达式中添加最后一个\n。
另外，如果您不确定您将得到什么类型的换行符（\n或\r或\r\n），那么只需通过将\n的每次出现替换为(?:\n|\r\n?)来修复正则表达式。

相关问题更多 >

编程相关推荐

热门问题

热门文章

匹配多行tex块的正则表达式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >