分析日志文件的Python脚本
我正在创建一个Python脚本,用来分析一个日志文件(比如这个例子:http://www.monitorware.com/en/logsamples/apache.php),我需要一些建议,看看可以用什么方法来实现这个目标。
- 用
open
方法来读取日志文件。这没问题。 - 如何计算日志的经过时间?我应该用什么方法从日志行的特定位置读取数据?比如说这行日志:
64.242.88.10 - - [07/Mar/2004:16:05:49 -0800] "GET /twiki/bin/edit/Main/Double_bounce_sender?topicparent=Main.ConfigurationVariables HTTP/1.1" 401 12846
我怎么才能从某个特定位置,比如年份,开始计算经过的时间呢?
我还需要显示每分钟处理的请求数量、发送的总数据量、平均发送的数据量,以及单个请求中发送的最大数据量。
1 个回答
3
我会使用re
模块来从文本中提取信息,比如搜索、查找子串等等。
接着可以用strptime
这个工具,把日期和时间的值转换成可以计算的格式。
之后我会用numpy.ndarray
来存储数据,并生成进一步的报告。
我还喜欢matplotlib
,特别是像hist
这样的功能,可以制作一些漂亮的图表。