递归使用Scrapy抓取网站网页

1 投票

2 回答

1238 浏览

提问于 2025-04-16 11:05

我最近开始使用Scrapy这个工具。我想从一个很大的列表中获取一些信息，这个列表分成了大约50页。我可以很容易地从第一页提取我想要的内容，包括在start_urls列表中的第一页。不过，我不想把这50页的所有链接都添加到这个列表里。我需要一种更灵活的方法。有没有人知道我该如何逐页抓取网页？有没有人能给我一些例子？

谢谢！

数据抓取 scrapy 爬虫技术递归抓取网页提取

2 个回答

你为什么不想把所有链接都加到50个页面上呢？这些页面的地址是连续的吗，比如 www.site.com/page=1、www.site.com/page=2，还是说每个地址都不一样？你能给我看看你现在的代码吗？

回答于 2025-04-16 由 Python大师

分享举报

用urllib2来下载一个网页。然后可以用re（正则表达式）或者BeautifulSoup（一个解析HTML的工具）来找到你需要的下一个页面的链接。再用urllib2下载那个页面。这个过程可以重复进行。

Scapy很好，但你并不需要它来完成你想做的事情。

回答于 2025-04-16 由 Python大师

分享举报

递归使用Scrapy抓取网站网页

2 个回答

撰写回答