将WARC转换为ZIM
warc2zim的Python项目详细描述
瓦尔齐姆
warc2zim提供了一种将WARC文件转换为ZIM的方法,分别存储WARC有效载荷和WARC+HTTP头。在
此外,还将ReplayWeb.page添加到ZIM中,从而创建一个自包含的ZIM 可以在现代浏览器中呈现其内容。在
使用
示例:
warc2zim ./path/to/myarchive.warc --output /output --name myarchive.zim -u https://example.com/
上面将创建一个ZIM文件/output/myarchive.zim
,并将https://example.com/
设置为主页面。在
URL筛选
默认情况下,只包含来自主页面域和子域的url,例如,在上例中只有*.example.com
url。在
这允许过滤掉可能超出范围的url(例如广告、社交媒体跟踪器)。在
若要指定不同的顶级域,请为每个域使用--include-domains
/-i
标志,例如,如果主页面位于子域上,https://subdomain.example.com/
但来自{
要简单地包含所有URL,请使用--include-all
/-a
标志:
warc2zim myarchive.warc --name myarchive -a -u https://someother.example.com/page.html
其他选项请参见warc2zim -h
。在
ZIM入口布局
WARC到ZIM的转换是通过将WARC(和HTTP)头从有效负载分离来执行的。在
对于response
记录,WARC+HTTP报头存储在H/<url>
下,而有效负载存储在A/<url>
下
对于resource
记录,WARC头存储在H/<url>
下,而有效负载存储在A/<url>
下。(三个资源记录没有HTTP头)。在
对于revisit
记录,WARC+可选HTTP报头存储在H/<url>
下,而不创建有效负载记录。在
如果有效负载A/<url>
长度为零,则忽略该记录,以符合不存储空记录的ZIM规范。在
重复uri
WARCs允许同一个URL有多个记录,而ZIM不允许。因此,ZIM中只存储第一次遇到的响应或资源记录, 忽略后续记录。在
对于回访记录,只有在指向其他URL时才会添加这些记录,并在响应/回访记录之后进行处理。同一URL的重访记录 总是被忽略。在
跳过所有其他WARC记录。在
i18n型
warc2zim
有非常少的非内容文本,但仍然使用gettext到babel进行国际化。在
要添加新的区域设置(fr
在本例中,只使用ISO-639-1):
- {cd22>你的区域设置:}
- 确保POT是最新的
python setup.py extract_messages
- 更新您的区域设置目录
python setup.py update_catalog
- 翻译PO文件(poedit是您的朋友)
- 编译更新的翻译
python setup.py compile_catalog
许可证
GPLv3或更高版本,请参阅 LICENSE了解更多详细信息。在
- 项目
标签: