Python正则表达式减少模式中的冗余？

3条回答

网友

1楼 · 编辑于 2024-05-26 17:42:49

在构建复杂的正则表达式时，我经常使用“语法”方法。例如，“你先把语法定义为：

logfile_grammar = {
    'spaces':  '\s+',
    'mname':   '(Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)',
    'month':   r'\d\d',
    'day':     r'\d\d',
    'year':    r'\d{4}',
    'date':    '(?P<date>($year-$month-$day)|($day $spaces $mname $spaces $year))',
    'payload': '(?P<payload>.+)',
    # more stuff
    'line':    '$date $spaces $payload'
}

如您所见，右边的$xxx表示左边的键（符号）。然后将此语法转换为正则表达式：

^{pr2}$

现在，line_regex是一个可以处理任何可能的日志行的正则表达式。在

网友

2楼 · 编辑于 2024-05-26 17:42:49

MONTH = r'(?P<month>Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)'
DAY = r'(?P<day>\d{2})'
TIME = r'(?P<hour>\d{2}):(?P<minute>\d{2}):(?P<second>\d{2})'
SPC = r'\s'
HOST = r'(?<host>\w+)'
PREFIX = SPC.join(MONTH, DAY, TIME, HOST)
foobar_patterns = {
    'pattern1': re.compile(PREFIX + r'\s(?<payload>blahbla hbla h blah)'),
    'pattern2': re.compile(PREFIX + r'\s(?<payload>bla h blahbla hblah)'),
}

网友

3楼 · 编辑于 2024-05-26 17:42:49

你考虑过两次解析吗？E、 g.第一步提取timestamp，level，Application，Function，然后解析有效负载？您可能需要做一些缓存，可能首先构建一个已解析日志对象的列表，然后评估指定的日志消息（这样可以更容易地跳过前面的3行（如您所述，可能是必要的），而无需解析两次行）

或者，您可以使用字符串合并：

伪代码：

basePattern = "\[\w+\]\[\w+\]\[\w+\]"
foobar_patterns {
 'payloadPattern1':'asdf',
 'payloadPattern2':'asdff',
}
for patternKey in foobar_patterns:
    foobar_patterns[patternKey] = re.compile(basePattern + foobar_patterns[paternKey])

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python正则表达式减少模式中的冗余？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >