用于处理和操作warc文件(和http内容)的命令行工具和库

warctools的Python项目详细描述


依赖项
setuptools
unittest2
python 2.6


warc valid.py
如果参数都是有效的arc/warc文件,则返回0
non zero on error

warcdump.py-编写warc files的可读摘要:
用法:python warcdump.py foo.warc foo.warc.gz
当传递文件名时自动检测输入格式,即recordgzip与纯文本,warc vs arc

如果没有参数,则假定stdin上有未压缩的warc

python warcfilter.py pattern file file
搜索所有头文件中的regex pattern
使用-i反转搜索
使用-u约束到url
使用-t约束到记录类型
使用-c约束到内容类型

autodetects和stdin-like warcdump


默认打印warc格式。

python warc2warc<;input files>;


autodetects压缩文件
args,如果没有则假定为未压缩的stdin

使用-z写入压缩输出

i.e warc2warc-z input>;input.gz


应忽略输入中的错误记录

在输入时从arc文件创建一个糟糕的warc文件
保留一些头
使用-z写入压缩输出
i.e arc2warc-z input.arc>;input.warc.gz

弹出如下索引:
warc filename offset warc type warc subject uri warc record id content type content length
warccrap/mywarc.warc 1196018 request/images/slides/hanzo markm_uwwoh.pdf<;urn:uuid:fd1255a8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=request 193
warccrap/mywarc.warc 1196631响应http://www.hanzoarchives.com/images/slides/hanzo_u markm_uwwoh.pdf<;urn:uuid:fd2614f8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=response 3279474
不太好,但是一个开始

注意:

作为转换头的开始

严格的空白,必需的头检查…
mime引用的可打印头编码
将头视为utf8


还有很多事情要做(没有顺序):
更多测试。
支持1.0以前的warc文件
添加更多文档
支持输出和文件名的更多命令行选项
s3url


--tefthomas.figg@hanzoarchives.com

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
image Java:设置iconimage而不使用完整路径   javaant和Eclipse构建   Java标签检查图像   java为什么我的glassfish服务器会重定向到另一台服务器?   java MySQL简单查询错误   java你能告诉我如何在图像视图中显示图像吗   Java驱动程序4.0:是否支持对象映射?   java在通过SourceDataLine播放音频时发出一致的爆裂声   java组织。金特罗普。dcom。常见的JIException:未找到错误代码0xC0000070的消息   运行Dijkstra算法实现时的java IndexOutOfBoundsException   java swing gui闪烁白色错误   java单元测试:我应该使用null还是可选的。返回()中的空()?   javajaxb创建空对象   如何拒绝Java构造函数中的非限定参数?   单元测试的java分类