用于处理和操作warc文件(和http内容)的命令行工具和库

warctools的Python项目详细描述


依赖项
setuptools
unittest2
python 2.6


warc valid.py
如果参数都是有效的arc/warc文件,则返回0
non zero on error

warcdump.py-编写warc files的可读摘要:
用法:python warcdump.py foo.warc foo.warc.gz
当传递文件名时自动检测输入格式,即recordgzip与纯文本,warc vs arc

如果没有参数,则假定stdin上有未压缩的warc

python warcfilter.py pattern file file
搜索所有头文件中的regex pattern
使用-i反转搜索
使用-u约束到url
使用-t约束到记录类型
使用-c约束到内容类型

autodetects和stdin-like warcdump


默认打印warc格式。

python warc2warc<;input files>;


autodetects压缩文件
args,如果没有则假定为未压缩的stdin

使用-z写入压缩输出

i.e warc2warc-z input>;input.gz


应忽略输入中的错误记录

在输入时从arc文件创建一个糟糕的warc文件
保留一些头
使用-z写入压缩输出
i.e arc2warc-z input.arc>;input.warc.gz

弹出如下索引:
warc filename offset warc type warc subject uri warc record id content type content length
warccrap/mywarc.warc 1196018 request/images/slides/hanzo markm_uwwoh.pdf<;urn:uuid:fd1255a8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=request 193
warccrap/mywarc.warc 1196631响应http://www.hanzoarchives.com/images/slides/hanzo_u markm_uwwoh.pdf<;urn:uuid:fd2614f8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=response 3279474
不太好,但是一个开始

注意:

作为转换头的开始

严格的空白,必需的头检查…
mime引用的可打印头编码
将头视为utf8


还有很多事情要做(没有顺序):
更多测试。
支持1.0以前的warc文件
添加更多文档
支持输出和文件名的更多命令行选项
s3url


--tefthomas.figg@hanzoarchives.com

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在Hibernate中使用条件连接两个表?   Stripes框架中的java对话范围   我的内存够吗?   Jenkins Java&Selenium如何处理2个随机异常?   javascript Java websockets跨端点共享会话   java是一种测试驱动的开发方法吗?   Java客户端中的Soap连接超时,但在SOAPUI中未超时   Java LibGDX:TileMap未在顶部和右侧渲染   linux Java::process builder:bash脚本:返回的文件名正确,但fileReader引发FileNotFoundException   java Selenium单击自动随机生成的DIV/ID/LINK   比较两个忽略元素和属性顺序的XMl文件   Java无限循环/调用   java如何防止操作修改cookie?   列出未保存的Java webpanel命令   在Java中,如何解决XXXX不能作为变量求解的错误?   Java概念后期版本格式化部分