递归使用Scrapy抓取网站网页
我最近开始使用Scrapy这个工具。我想从一个很大的列表中获取一些信息,这个列表分成了大约50页。我可以很容易地从第一页提取我想要的内容,包括在start_urls
列表中的第一页。不过,我不想把这50页的所有链接都添加到这个列表里。我需要一种更灵活的方法。有没有人知道我该如何逐页抓取网页?有没有人能给我一些例子?
谢谢!
2 个回答
0
你为什么不想把所有链接都加到50个页面上呢?这些页面的地址是连续的吗,比如 www.site.com/page=1
、www.site.com/page=2
,还是说每个地址都不一样?你能给我看看你现在的代码吗?
1
用urllib2来下载一个网页。然后可以用re(正则表达式)或者BeautifulSoup(一个解析HTML的工具)来找到你需要的下一个页面的链接。再用urllib2下载那个页面。这个过程可以重复进行。
Scapy很好,但你并不需要它来完成你想做的事情。