使用pyspark和regexp解析多行日志

2020-04-03T14:12:24,368 DEBUG [main] blabla bla bla bla 2020-04-03T14:12:24,371 DEBUG [main] bla bla bla bla 2020-04-03T14:12:24,348 DEBUG [Thread-2] multiline log line bla bla bla bla bla bla bla blablabla 2020-04-03T14:12:24,377 DEBUG [main] blabla bla bla bla

log_pattern = r'(\d*-\d*-\d*)T(\d*:\d*:\d*,\d*)[ ]{1,}(DEBUG|INFO|WARN|FATAL|ERROR|TRACE)[ ]{1,}(\[.*\])[ ]{1,}(.*)' logs_df = base_df.select(regexp_extract('value', log_pattern, 1).alias('date'), regexp_extract('value', log_pattern, 2).alias('timestamp'), regexp_extract('value', log_pattern, 3).alias('log_level'), regexp_extract('value', log_pattern, 4).alias('application'), regexp_extract('value', log_pattern, 5).alias('log_content')) logs_df.show(10, truncate=True)

1条回答

网友

1楼 · 发布于 2024-05-13 01:50:32

您可以在最后一个组(.*(?:\r?\n(?!\d+-).*)*)中使用负前瞻来捕获以下所有不以1个或多个数字和连字符开头的行

请注意，如果使用\d*-\d*-\d*，还可以匹配，因为量词*匹配0次或更多次

这部分\[.*\]可以使用否定字符类\[[^][]*\]来编写，以防止过度匹配并使其性能更高

(\d+-\d+-\d+)T(\d+:\d+:\d+,\d+)[ ]+(DEBUG|INFO|WARN|FATAL|ERROR|TRACE)[ ]+(\[[^][]*\])[ ]+(.*(?:\r?\n(?!\d+-).*)*)

Regex demo

相关问题更多 >

编程相关推荐

热门问题

热门文章