如何在python中解析非常大的文件?

2024-06-16 10:22:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这个日志文件“互联网.log“大约是10GB。当我在python中解析它时,会得到一个异常“MemoryError”。日志文件如下所示。。。你知道吗

Jun 15 16:26:21 dnsmasq[1979]: reply fd-geoycpi-uno.gycpi.b.yahoodns.net is 74.6.160.107
Jun 15 16:26:21 dnsmasq[1979]: reply fd-geoycpi uno.gycpi.b.yahoodns.net is 216.115.100.123
Jun 15 16:26:21 dnsmasq[1979]: reply fd-geoycpi-uno.gycpi.b.yahoodns.net is 216.115.100.124
Jun 15 16:26:21 dnsmasq[1979]: reply fd-geoycpi-uno.gycpi.b.yahoodns.net is 74.6.160.106
Jun 15 16:26:21 dnsmasq[1979]: query[A] fd-geoycpi-uno.gycpi.b.yahoodns.net from 192.168.1.33
Jun 15 16:26:21 dnsmasq[1979]: cached fd-geoycpi-uno.gycpi.b.yahoodns.net is 74.6.160.106
Jun 15 16:26:21 dnsmasq[1979]: cached fd-geoycpi-uno.gycpi.b.yahoodns.net is 216.115.100.124
Jun 15 16:26:21 dnsmasq[1979]: cached fd-geoycpi-uno.gycpi.b.yahoodns.net is 216.115.100.123
Jun 15 16:26:21 dnsmasq[1979]: cached fd-geoycpi-uno.gycpi.b.yahoodns.net is 74.6.160.107
Jun 15 16:26:23 dnsmasq[1979]: query[A] armdl.adobe.com from 192.168.1.24

我当前正在使用此方法分析日志文件:

def parse():
Date = []
IPAddress = []
DomainsVisited = []
with open("internet.log", "r") as file:
    content = file.readlines()
    for items in content:
        if 'query[A]' in items:
            getDate(Date, items)
            getIPAddress(IPAddress, items)
            getDomainsVisited(DomainsVisited, items)
finalResult = [[i, j, k] for i, j, k in zip(Date, IPAddress, DomainsVisited)]
return display(finalResult)

如果我解析一个10MB的日志文件,输出就会显示出来,但是当我去解析10GB的日志文件时,我得到了一个错误。我怎样才能解决这个问题?非常感谢。你知道吗


Tags: 文件datenetisitemsqueryreplyjun
2条回答

您不应该使用file.readlines()。这样做会立即将整个文件读入内存,很可能会立即将其填满。相反,迭代文件:

with open("internet.log", "r") as file:
    for items in file:

(当然,这取决于您对数据的处理方式,在浏览文件时仍然可能中断。)

您正在用readlines将整个文件读入内存。你知道吗

你可以通过说for items in file一次读一行。你知道吗

稍微清理一下代码,使用更好的变量名和列表理解来构建结果:

with open("internet.log") as log:
    finalResults = [[getDate(line), getIPAddress(line), getDomainsVisited(line)]
                    for line in log
                    if 'query[A]' in line]

我将把结果提取到一个函数中:

def parse_log_line(line):
    return [getDate(line),
            getIPAddress(line),
            getDomainsVisited(line)]

那么你的代码是:

with open("internet.log") as log:
    finalResults = [parse_log_line(line)
                    for line in log
                    if 'query[A]' in line]

相关问题 更多 >