从半结构化文本文档中提取数据的库
raspador的Python项目详细描述
从半结构化文本文档中提取数据的库。
它最适合在没有 结构和是纯文本的(或易于转换的)。结构化文件 像xml、csv和html一样,不适合raspador的良好用例,并且 提取数据的绝佳选择,比如lxml,html5lib, BeautifulSoup,和PyQuery。
提取器通过类定义为模型,类似于 Django Orm公司。每个字段搜索由正则 表达式和捕获的组将自动转换为原语。
解析器被实现为一个生成器,其中找到的每个项都可以被使用 在分析结束之前,以管道为特色。
分析是向前的,这使得它非常快,因此 可以分析返回字符串的迭代器,包括无限流。
安装
拉斯帕多在cpython 2.6+、cpython 3.2+和pypy上工作。要安装它,请使用:
pip install raspador
或易于安装:
easy_install raspador
来源
从源代码下载并安装:
git clone https://github.com/fgmacedo/raspador.git cd raspador python setup.py install
测试
为了同时使用所有受支持的python版本自动化测试,我们使用tox。
使用以下命令运行所有测试:
$ tox
测试依赖于几个第三方库,但这些库是由tox安装的 在每个python的virtualenv上:
nose==1.3.0 coverage==3.6 flake8==2.0