用于web抓取的scratinghub页面对象模式
web-poet的Python项目详细描述
web-poet实现网页抓取的页面对象模式。 它定义了一个编写web数据提取代码的标准,它允许 代码是可移植的和可重用的。在
许可证是BSD 3条款。在
安装
pip install web-poet
它需要python3.6+。在
概述
网络诗人是一个图书馆,它定义了如何写作和组织的标准 web数据提取代码。在
如果web抓取代码是作为web诗人页面对象编写的,那么它可以被重用 在不同的情况下。例如,可以在 IPython notebook,然后隔离测试,然后插入 或者用作某些基于aiohttp的自定义的一部分 网页抓取框架。在
目前,可以使用以下集成:
- 刮痧,通过scrapy-poet
更多信息请参见Documentation。在
- 项目
标签: