django应用程序,用于按照用户定义的说明收集联机内容

django-scraper的Python项目详细描述


https://travis-ci.org/zniper/django-scraper.svg?branch=masterhttps://coveralls.io/repos/zniper/django-scraper/badge.svg?branch=master

django scraper是一个django应用程序,用于按照用户定义的说明收集联机内容

功能

  • 提取给定在线网站/页面的内容并存储在json数据下
  • 然后爬网以给定深度提取多个页面中的内容。
  • 可以下载第页中的媒体文件
  • 有在zip文件下存储数据的选项
  • 支持标准文件系统和AWS S3存储
  • 针对不同情况的可自定义爬网请求
  • 进程可以从django管理命令(~cron job)或使用python代码启动
  • 支持在同一页中提取多个内容(文本、HTML、图像、二进制文件)
  • 有内容优化(替换)规则和黑字过滤
  • 支持自定义代理服务器和用户代理

支持django 1.6、1.7和1.8

样品

下面是刮削https://news.ycombinator.com/ask

https://dl.dropboxusercontent.com/u/44239448/scraper-screen.jpg

安装

此应用程序需要先安装一些其他工具:

lxml
requests

django scraper安装可以使用pip

pip install django-scraper

有关配置或使用的更多和最新信息,请访问github中的存储库:https://github.com/zniper/django-scraper

支架

如果您对此申请有任何疑问,请发送电子邮件至:me@zniper.net

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java IntelliJ找不到依赖项选项卡   java向字符串数组string[]添加元素并在Junit中测试结果   如何在eclipse中获取活动java项目的名称   如何使用java在mysql中插入时间   java ArrayList更新了插入一行,但Jtable仍然没有刷新   如何在JavaSwing中命名坐标(点)   java Matcher/模式不打印   java错误地设置了arraylist   使用UsernamePasswordCredential提供程序的java列表Azure AD   java在HTTP请求中设置UTC时间   未加载事件:jquery完整日历Java集成   java Maven插件依赖项无法从内部repo解析依赖项   Maven更新重置Java版本   java如何向中添加图片。带有Apache POI XWPF的docx,但不指定其大小   Java最大函数递归