基于py3asyncio的站点抓取框架

iob的Python项目详细描述


https://travis-ci.org/lorien/iob.png?branch=masterhttps://coveralls.io/repos/lorien/iob/badge.svg?branch=masterhttps://pypip.in/download/iob/badge.svg?period=monthhttps://pypip.in/version/iob/badge.svghttps://landscape.io/github/lorien/iob/master/landscape.png

基于py3异步和aiohttp库的Web抓取框架。在

使用示例

importrefromitertoolsimportislicefromiobimportCrawler,RequestRE_TITLE=re.compile(r'<title>([^<]+)</title>',re.S|re.I)classTestCrawler(Crawler):deftask_generator(self):forhostinislice(open('var/domains.txt'),100):host=host.strip()ifhost:yieldRequest('http://%s/'%host,tag='page')defhandler_page(self,req,res):print('Result of request to {}'.format(req.url))try:title=RE_TITLE.search(res.body).group(1)exceptAttributeError:title='N/A'print('Title: {}'.format(title))bot=TestCrawler(concurrency=10)bot.run()

安装

^{pr2}$

依赖关系

  • Python>;=3.4
  • aiohttp公司

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何向xsi:nil元素添加另一个属性?   Java抽象泛型方法,使用具体类型实现通配符   java使用pcap4j截断pcap文件   当我放置字母a、b和c时,java中的异常预期会下降   java设置活动对话框不可取消   接口类型变量上的Java克隆   使用Java或BouncyCastle对CSR(证书签名请求)进行安全解码/读取   java调用SavingsAccount对象上的函数并打印结果   java如何在Android应用程序上显示地图上的兴趣点(POI)并与之交互?   如果在JavaFX中的ResultSet中未找到任何内容,则显示java警报   java我将springboot和@component与@scheduled一起使用,它每12小时锁定一次   ApachePOI如何使用java删除包含字符串的word表的行   java如果对象(x,y)靠近其他对象(x,y)   从未对JMSException调用java JMS CachingConnectionFactory OneException方法   javascript使用java将HTML页面转换为MS word