基于py3异步的web抓取框架

crawler的Python项目详细描述


https://travis-ci.org/lorien/crawler.png?branch=masterhttps://coveralls.io/repos/lorien/crawler/badge.svg?branch=masterhttps://pypip.in/download/crawler/badge.svg?period=monthhttps://pypip.in/version/crawler/badge.svghttps://landscape.io/github/lorien/crawler/master/landscape.png

基于py3异步aiohttp库的web抓取框架。

用法示例

importrefromitertoolsimportislicefromcrawlerimportCrawler,RequestRE_TITLE=re.compile(r'<title>([^<]+)</title>',re.S|re.I)classTestCrawler(Crawler):deftask_generator(self):forhostinislice(open('var/domains.txt'),100):host=host.strip()ifhost:yieldRequest('http://%s/'%host,tag='page')defhandler_page(self,req,res):print('Result of request to {}'.format(req.url))try:title=RE_TITLE.search(res.body).group(1)exceptAttributeError:title='N/A'print('Title: {}'.format(title))bot=TestCrawler(concurrency=10)bot.run()

安装

pip install crawler

依赖关系

  • python=3.4
  • aiohttp

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在HL7中“Repeate”、“Component”和“SubComponent”是什么意思?   javaqtp到Selenium等价方法   找不到使用线程错误RequestProcessor的Java服务器   java为什么在竞争性编程平台上提交代码时会出现运行时错误?   eclipse使用java程序动态纠正java代码中的错误(源代码分析+错误删除)   java如何获取Jlist中的一个条目以与另一个Jlist中的条目协同工作?   java在排序数组上迭代并存储不同整数的计数   java循环休眠选择(onetomany/manytoone)JAXR   java递归地反转只有两个指针返回的linkedlist?   JAVA代码中的循环建议   java这个if-else语句中有什么错误吗?   Java枚举返回Int   java云网关无法通过网关访问服务,但直接访问没有问题   Java中的多线程,使用线程是否有效。空闲线程的睡眠(1)?   java将二维整数数组的行从最小到最大排序   java使用SQLite数据库修复NullPointerException   过滤器中的java映射URI模板   到字符串的资产的java路径?