使用arc和warc文件的python库
warc的Python项目详细描述
warc(web archive)是一种用于存储web爬网的文件格式。
这个warc库使使用warc文件变得非常容易。
import warc f = warc.open("test.warc") for record in f: print record['WARC-Target-URI'], record['Content-Length']
文档
warc库的文档可以在http://warc.readthedocs.org/找到。
许可证
此软件在GPL v2下获得许可。有关详细信息,请参见LICENSE文件。