django应用程序,用于按照用户定义的说明收集联机内容
django-scraper的Python项目详细描述
django scraper是一个django应用程序,用于按照用户定义的说明收集联机内容
功能
- 提取给定在线网站/页面的内容并存储在json数据下
- 然后爬网以给定深度提取多个页面中的内容。
- 可以下载第页中的媒体文件
- 有在zip文件下存储数据的选项
- 支持标准文件系统和AWS S3存储
- 针对不同情况的可自定义爬网请求
- 进程可以从django管理命令(~cron job)或使用python代码启动
- 支持在同一页中提取多个内容(文本、HTML、图像、二进制文件)
- 有内容优化(替换)规则和黑字过滤
- 支持自定义代理服务器和用户代理
支持django 1.6、1.7和1.8
安装
此应用程序需要先安装一些其他工具:
lxml requests
django scraper安装可以使用pip:
pip install django-scraper
有关配置或使用的更多和最新信息,请访问github中的存储库:https://github.com/zniper/django-scraper
支架
如果您对此申请有任何疑问,请发送电子邮件至:me@zniper.net