用于处理和操作warc文件(和http内容)的命令行工具和库
warctools的Python项目详细描述
依赖项
setuptools
unittest2
python 2.6
warc valid.py
如果参数都是有效的arc/warc文件,则返回0
non zero on error
warcdump.py-编写warc files的可读摘要:
用法:python warcdump.py foo.warc foo.warc.gz
当传递文件名时自动检测输入格式,即recordgzip与纯文本,warc vs arc
如果没有参数,则假定stdin上有未压缩的warc
python warcfilter.py pattern file file
搜索所有头文件中的regex pattern
使用-i反转搜索
使用-u约束到url
使用-t约束到记录类型
使用-c约束到内容类型
autodetects和stdin-like warcdump
默认打印warc格式。
python warc2warc<;input files>;
autodetects压缩文件
args,如果没有则假定为未压缩的stdin
使用-z写入压缩输出
i.e warc2warc-z input>;input.gz
应忽略输入中的错误记录
在输入时从arc文件创建一个糟糕的warc文件
保留一些头
使用-z写入压缩输出
i.e arc2warc-z input.arc>;input.warc.gz
弹出如下索引:
warc filename offset warc type warc subject uri warc record id content type content length
warccrap/mywarc.warc 1196018 request/images/slides/hanzo markm_uwwoh.pdf<;urn:uuid:fd1255a8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=request 193
warccrap/mywarc.warc 1196631响应http://www.hanzoarchives.com/images/slides/hanzo_u markm_uwwoh.pdf<;urn:uuid:fd2614f8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=response 3279474
不太好,但是一个开始
注意:
作为转换头的开始
严格的空白,必需的头检查…
mime引用的可打印头编码
将头视为utf8
还有很多事情要做(没有顺序):
更多测试。
支持1.0以前的warc文件
添加更多文档
支持输出和文件名的更多命令行选项
s3url
--tefthomas.figg@hanzoarchives.com
setuptools
unittest2
python 2.6
warc valid.py
如果参数都是有效的arc/warc文件,则返回0
non zero on error
warcdump.py-编写warc files的可读摘要:
用法:python warcdump.py foo.warc foo.warc.gz
当传递文件名时自动检测输入格式,即recordgzip与纯文本,warc vs arc
如果没有参数,则假定stdin上有未压缩的warc
搜索所有头文件中的regex pattern
使用-i反转搜索
使用-u约束到url
使用-t约束到记录类型
使用-c约束到内容类型
autodetects和stdin-like warcdump
默认打印warc格式。
autodetects压缩文件
args,如果没有则假定为未压缩的stdin
使用-z写入压缩输出
i.e warc2warc-z input>;input.gz
应忽略输入中的错误记录
保留一些头
使用-z写入压缩输出
i.e arc2warc-z input.arc>;input.warc.gz
warc filename offset warc type warc subject uri warc record id content type content length
warccrap/mywarc.warc 1196018 request/images/slides/hanzo markm_uwwoh.pdf<;urn:uuid:fd1255a8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=request 193
warccrap/mywarc.warc 1196631响应http://www.hanzoarchives.com/images/slides/hanzo_u markm_uwwoh.pdf<;urn:uuid:fd2614f8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=response 3279474
不太好,但是一个开始
注意:
严格的空白,必需的头检查…
mime引用的可打印头编码
将头视为utf8
还有很多事情要做(没有顺序):
更多测试。
支持1.0以前的warc文件
添加更多文档
支持输出和文件名的更多命令行选项
s3url
--tefthomas.figg@hanzoarchives.com