基于u我必须从一个*中检索记录。warc.gz公司基于目标URI的文件。 文档说这需要创建外部CDXJ索引文件。在 我尝试过以gzip.open()的形式打开文件并执行seek(offset),但是查找操作 ...2024-05-17 已阅读: n次
ipwb 行星际回退(IPWB) Web存档的点对点永久性 行星际回退(ipwb)通过传播warc文件到ipfs网络。ipfs是一个对等内容寻址文件系统,它固有地允许重复数据消除,并有助于选择性复制。ipw ...2024-05-17 已阅读: n次
cdxj-indexer cdxj索引器 用于从warc和arc文件生成cdxj(和cdx)索引的命令行工具。 索引器是为快速灵活的索引而重新设计的一种新工具。(基于pywb的索引功能) 使用pip install cdxj ...2024-05-17 已阅读: n次