如何将单个Apache日志条目解析为Python对象
我正在写我的第一个Python脚本,想把Apache日志解析成一个可以使用的对象,但我搞不定。
我想用这个例子(运行的是Python 2.7
),只想让它能处理一条日志记录。
这是我现在的代码:
import re
from collections import namedtuple
format_pat= re.compile(
r"(?P<host>[\d\.]+)\s"
r"(?P<identity>\S*)\s"
r"(?P<user>\S*)\s"
r"\[(?P<time>.*?)\]\s"
r'"(?P<request>.*?)"\s'
r"(?P<status>\d+)\s"
r"(?P<bytes>\S*)\s"
r'"(?P<referer>.*?)"\s'
r'"(?P<user_agent>.*?)"\s*'
)
Access = namedtuple('Access',
['host', 'identity', 'user', 'time', 'request',
'status', 'bytes', 'referer', 'user_agent'] )
# my entry
log = '2001:470:1f14:169:15f3:824f:8a61:7b59 - ABC-15414 [14/Nov/2012:09:32:31 +0100] "POST /setConnectionXml HTTP/1.1" 200 4 "-" "-" 102356'
match= format_pat.match(log)
print match
if match:
Access( **match.groupdict() )
print Access
我不太确定哪里出错了,但match
返回的是none
,而不是我期待的对象。
有人能给我点提示吗?
2 个回答
1
你需要使用 format_pat.search(log)
这个方法。
In [6]: m = format_pat.search(log)
In [7]: m.groupdict()
Out[7]:
{'bytes': '4',
'host': '59',
'identity': '-',
'referer': '-',
'request': 'POST /setConnectionXml HTTP/1.1',
'status': '200',
'time': '14/Nov/2012:09:32:31 +0100',
'user': 'ABC-15414',
'user_agent': '-'}
5
你的host
设置只匹配数字和点(也就是IPv4地址),但是你发的日志示例是一个IPv6地址。你需要调整你的匹配规则,让它也能识别这种格式(也就是说,要么匹配数字和点,要么匹配十六进制字符和冒号):
format_pat= re.compile(
r"(?P<host>(?:[\d\.]|[\da-fA-F:])+)\s"
r"(?P<identity>\S*)\s"
r"(?P<user>\S*)\s"
r"\[(?P<time>.*?)\]\s"
r'"(?P<request>.*?)"\s'
r"(?P<status>\d+)\s"
r"(?P<bytes>\S*)\s"
r'"(?P<referer>.*?)"\s'
r'"(?P<user_agent>.*?)"\s*'
)
调整后,你的示例就能匹配到:
>>> format_pat.match(log).groupdict()
{'status': '200', 'bytes': '4', 'request': 'POST /setConnectionXml HTTP/1.1', 'host': '2001:470:1f14:169:15f3:824f:8a61:7b59', 'referer': '-', 'user': 'ABC-15414', 'time': '14/Nov/2012:09:32:31 +0100', 'identity': '-', 'user_agent': '-'}