轻量级python爬虫框架
grython的Python项目详细描述
格里森
简介
包grython是一个light权重的python爬虫框架。它设计用于日常工作,例如提取文章或图像。grython的主要功能是:
- 软件包grython只依赖于requests&;beautifulsoup,这意味着在大多数情况下,您可以保持比scrapy;
- 包grython支持css选择器。从HTML中提取内容比您想象的要容易;
尽管grython被设计为轻量级,但它也可以完美地处理一些大型项目。
安装
您可以使用pip install grython
轻松安装。
用法
这里给出了一个极小的例子。场景可能看起来很熟悉:你迷上了小说Desolate Era,你想在本地存储中获得一本电子书。当然,手动复制和粘贴会很麻烦,但是使用grython所有问题都可以通过几个简短的命令解决。例如:
importgrython# Collecting links for each chapterurl='https://www.wuxiaworld.com/novel/desolate-era'soup=grython.require(url,encoding='utf-8')pattern=grython.Pattern('li.chapter-item a')hrefs=['https://www.wuxiaworld.com'+elt['href']foreltinpattern.update(soup)]# Download extracted contentsrecipe=grython.Recipe('desolate-era',{'title':'h4[1]','content':'div.fr-view'})forhrefinhrefs:soup=grython.require(href,encoding='utf-8')recipe.extract_txt(soup)print(f'url {href} extracted!')
现在你所要做的就是指望你的手指!
但是grython有更多的功能。例如:
- 对{{CD2}}、 的代理、头和cookie进行删减
- 不同的数据格式包括
json
、xml
、txt
和db
。
限制
- 详细的文档仍有待编写;
- 不能保证线程安全;
- 没有正确的异常处理:一个异常可能导致整个爬网程序崩溃。
以上问题将尽快得到解决。