向后读取gzip文件

网友

1楼 · 编辑于 2024-04-25 20:31:40

不幸的是，您必须从一开始就解析gz文件，而将它们全部解析到最后可能会很耗时。我使用一个列表缓冲区，它只弹出第一项如果reverse=True并且达到BSIZE，它将始终保存文件的最后一个BSIZE匹配，并且在一次传递中：

   BSIZE = 100; searchstr= "match in gzfile"; n = 0; buffer = []; reversed = True
   # gzf is an *.gz file in a directory
   with gzip.open(files['path'] + '/' + gzf, 'rt') as f:
        for line in f:
            if re.search(searchstr, line):
                n += 1
                buffer.append(line.strip())
                if n >= BSIZE and not reversed:
                    break
                elif n >= BSIZE:
                    buffer.pop(0)

网友

2楼 · 编辑于 2024-04-25 20:31:40

真的没有什么好办法。gzip（deflate）压缩数据格式本质上是串行的，无论是在使用哈夫曼代码还是在之前的32K中使用匹配字符串

如果无法将其全部放入内存，则需要a）将其解压缩到磁盘，并使用未压缩表单上的seeks对其进行反向解压缩，或者b）对gzip文件执行一次解压缩，为足够小的块创建有效的随机访问入口点，然后反向执行第二次解压过程每一块。在

a）可以用tac完成，正如@Jud的回答中建议的那样，因为tac将在磁盘上创建一个临时文件来保存未压缩的内容。在

b）很复杂，需要深入了解deflate格式。它还要求为每个入口点保存32K的历史记录，无论是在内存中还是在磁盘上。在

网友

3楼 · 编辑于 2024-04-25 20:31:40

唯一的解决方案可能是将文件解包到磁盘上并颠倒行顺序。它使用两倍的磁盘空间，但不是内存。在

您可以使用以下方法同时完成这两个步骤：

gzip -cd huge_file.log.gz | tac > huge_file.log.reversed

这样你就可以正常阅读和处理了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章