django应用程序,用于按照用户定义的说明收集联机内容

django-scraper的Python项目详细描述


https://travis-ci.org/zniper/django-scraper.svg?branch=masterhttps://coveralls.io/repos/zniper/django-scraper/badge.svg?branch=master

django scraper是一个django应用程序,用于按照用户定义的说明收集联机内容

功能

  • 提取给定在线网站/页面的内容并存储在json数据下
  • 然后爬网以给定深度提取多个页面中的内容。
  • 可以下载第页中的媒体文件
  • 有在zip文件下存储数据的选项
  • 支持标准文件系统和AWS S3存储
  • 针对不同情况的可自定义爬网请求
  • 进程可以从django管理命令(~cron job)或使用python代码启动
  • 支持在同一页中提取多个内容(文本、HTML、图像、二进制文件)
  • 有内容优化(替换)规则和黑字过滤
  • 支持自定义代理服务器和用户代理

支持django 1.6、1.7和1.8

样品

下面是刮削https://news.ycombinator.com/ask

https://dl.dropboxusercontent.com/u/44239448/scraper-screen.jpg

安装

此应用程序需要先安装一些其他工具:

lxml
requests

django scraper安装可以使用pip

pip install django-scraper

有关配置或使用的更多和最新信息,请访问github中的存储库:https://github.com/zniper/django-scraper

支架

如果您对此申请有任何疑问,请发送电子邮件至:me@zniper.net

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JAVA web服务从Android Ksoap接收空参数   java在Try/Catch(单元测试)中捕获ClassCastException   java从文件反序列化多个对象而不使用while(true)   JavaSpringDataGemFire:自定义过期示例   java我可以将字符串转换为变量吗?   java找不到任何METAINF/持久性。类路径中的xml文件   java为什么lucene 4.0删除IndexWriter类的两个构造函数?   数据库生物特征指纹   java LogManager忽略已启用的断言   java如何在运行时使用JAXB注释   java将16位pcm转换为8位   如何绘制Java 3D切片形状或切割件   Java/Android:无法启动活动组件信息{…}:JAVAlang.NullPointerException   java为什么html内容不能匹配一个相当简单的正则表达式?   java如何检查服务器端修改的表单字段   java组织。openqa。硒。遥远的与远程浏览器通信时发生UnreachableBrowserException错误   java中svd的文本挖掘问题   javaspringboot:deploy。jar作为init。d服务收到404错误   箭头键的java代码   java异常致命异常:无法在actionBar行上启动activity ComponentInfo。setCustomView(R.layout.actionbar\u custom\u view\u home);