递归使用Scrapy抓取网站网页

1 投票
2 回答
1238 浏览
提问于 2025-04-16 11:05

我最近开始使用Scrapy这个工具。我想从一个很大的列表中获取一些信息,这个列表分成了大约50页。我可以很容易地从第一页提取我想要的内容,包括在start_urls列表中的第一页。不过,我不想把这50页的所有链接都添加到这个列表里。我需要一种更灵活的方法。有没有人知道我该如何逐页抓取网页?有没有人能给我一些例子?

谢谢!

2 个回答

0

你为什么不想把所有链接都加到50个页面上呢?这些页面的地址是连续的吗,比如 www.site.com/page=1www.site.com/page=2,还是说每个地址都不一样?你能给我看看你现在的代码吗?

1

用urllib2来下载一个网页。然后可以用re(正则表达式)或者BeautifulSoup(一个解析HTML的工具)来找到你需要的下一个页面的链接。再用urllib2下载那个页面。这个过程可以重复进行。

Scapy很好,但你并不需要它来完成你想做的事情。

撰写回答