Python正则表达式匹配单引号中的文本，忽略转义引号（和制表符/换行符）

menu_item = 'casserole'; menu_item = 'meat loaf'; menu_item = 'Tony\'s magic pizza'; menu_item = 'hamburger'; menu_item = 'Dave\'s famous pizza'; menu_item = 'Dave\'s lesser-known gyro';

3条回答

网友

1楼 · 编辑于 2024-06-06 22:41:21

这应该做到：

menu_item = '((?:[^'\\]|\\')*)'

这里的(?:[^'\\]|\\')*部分匹配任何字符序列，除了'和\或文本\'。前一个表达式[^'\\]也允许换行符和制表符，然后需要用单个空格替换它们。

网友

2楼 · 编辑于 2024-06-06 22:41:21

这个经过测试的脚本应该可以做到：

import re
re_sq_long = r"""
    # Match single quoted string with escaped stuff.
    '            # Opening literal quote
    (            # $1: Capture string contents
      [^'\\]*    # Zero or more non-', non-backslash
      (?:        # "unroll-the-loop"!
        \\.      # Allow escaped anything.
        [^'\\]*  # Zero or more non-', non-backslash
      )*         # Finish {(special normal*)*} construct.
    )            # End $1: String contents.
    '            # Closing literal quote
    """
re_sq_short = r"'([^'\\]*(?:\\.[^'\\]*)*)'"

data = r'''
        menu_item = 'casserole';
        menu_item = 'meat 
                    loaf';
        menu_item = 'Tony\'s magic pizza';
        menu_item = 'hamburger';
        menu_item = 'Dave\'s famous pizza';
        menu_item = 'Dave\'s lesser-known
            gyro';'''
matches = re.findall(re_sq_long, data, re.DOTALL | re.VERBOSE)
menu_items = []
for match in matches:
    match = re.sub('\s+', ' ', match) # Clean whitespace
    match = re.sub(r'\\', '', match)  # remove escapes
    menu_items.append(match)          # Add to menu list

print (menu_items)

下面是regex的简短版本：

'([^'\\]*(?:\\.[^'\\]*)*)'

这个regex使用Jeffrey Friedl的“展开循环”效率技术进行优化。（参见：Mastering Regular Expressions (3rd Edition)）了解详细信息。

注意，上面的regex相当于下面的regex（这在大多数NFA regex实现中更常见，但速度慢得多）：

'((?:[^'\\]|\\.)*)'

网友

3楼 · 编辑于 2024-06-06 22:41:21

你可以这样试试：

pattern = re.compile(r"menu_item = '(.*?)(?<!\\)'", re.DOTALL)

它将在找到的第一个单引号处开始匹配，并在没有反斜杠的第一个单引号处结束。它还捕获在两个单引号之间找到的任何换行符和制表符。

相关问题更多 >

编程相关推荐

热门问题

热门文章