基于py3asyncio的站点抓取框架
iob的Python项目详细描述
基于py3异步和aiohttp库的Web抓取框架。在
使用示例
importrefromitertoolsimportislicefromiobimportCrawler,RequestRE_TITLE=re.compile(r'<title>([^<]+)</title>',re.S|re.I)classTestCrawler(Crawler):deftask_generator(self):forhostinislice(open('var/domains.txt'),100):host=host.strip()ifhost:yieldRequest('http://%s/'%host,tag='page')defhandler_page(self,req,res):print('Result of request to {}'.format(req.url))try:title=RE_TITLE.search(res.body).group(1)exceptAttributeError:title='N/A'print('Title: {}'.format(title))bot=TestCrawler(concurrency=10)bot.run()
安装
^{pr2}$依赖关系
- Python>;=3.4
- aiohttp公司
- 项目
标签: