基于u

2024-04-30 02:43:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我必须从一个*中检索记录。warc.gz公司基于目标URI的文件。 文档说这需要创建外部CDXJ索引文件。在

我尝试过以gzip.open()的形式打开文件并执行seek(offset),但是查找操作需要相当长的时间(秒)。在

有没有其他正确的方法来检索记录。在

在编辑:我'我在使用warc python库,他们似乎没有在warc文件上提供直接的f.seek()。在


Tags: 文件文档目标记录时间公司seekuri
1条回答
网友
1楼 · 发布于 2024-04-30 02:43:47

你应该在解压之前对文件进行搜索。通常,WARC文件是按记录压缩的,CDXJ中的偏移量和长度允许剪切出单个WARC记录,然后执行gzip.open()然后在一张唱片上。有疑问,最好用图书馆。Warcio甚至提供了一个命令行工具来按偏移量提取单个记录:warcio extract xyz.warc.gz offset。在

相关问题 更多 >