基于弹性映射约简的常见爬行数据提取
CommonCrawlJob的Python项目详细描述
作为DARPA Memex Program的一部分,Qadium Inc支持此工作。
安装
最简单的入门方法是使用pip安装这个库的副本。 这将在PyPI上安装稳定的最新版本。
$ pip install -e git+https://github.com/qadium-memex/CommonCrawlJob.git#egg=ccjob
另一种方法是直接从github安装代码以获取出血 代码的边缘版本。如果是这样,您仍然可以通过指向 它发送到github并指定协议。
$ pip install CommonCrawlJob
兼容性
不幸的是,这段代码还不能与python 3和python/pypy 2.7兼容 是目前唯一被测试的实现。 不幸的是,用于编码WARC (Web Archive)文件格式的库 将需要进行重写,这是可能有确定性的IO行为。