在Python Scrapy中处理分页

2 投票

1 回答

1074 浏览

提问于 2025-04-18 07:17

我正在使用scrapy这个Python库来抓取一个特定的网站。这个网站的分页形式如下：

http://www.example.com/s/ref=lp_1805560031_pg_4?rh=n%3A976419031%2Cn%3A%21976420031%2Cn%3A1389401031%2Cn%3A1389432031%2Cn%3A1805560031&page=4&ie=UTF8&qid=1400668237

如果我想从第1页抓取到第30页，我该如何处理这个分页呢？

我试过这个：

class MySpider(BaseSpider):
    start_urls = ['http://www.example.com/s/ref=lp_1805560031_pg_4?rh=n%3A976419031%2Cn%3A%21976420031%2Cn%3A1389401031%2Cn%3A1389432031%2Cn%3A1805560031&page=%s&ie=UTF8&qid=1400668237' % page for page in xrange(1,30)]

但是没有成功。

编辑： 我使用example.com这个域名只是为了问这个问题。

数据提取 URL解析网络爬虫数据抓取 scrapy 网站抓取爬虫分页

1 个回答

这段代码应该能帮到你。

start_urls = ['http://www.example.com/s/ref=lp_1805560031_pg_4?rh=n%3A976419031%2Cn%3A%21976420031%2Cn%3A1389401031%2Cn%3A1389432031%2Cn%3A1805560031&page={0}&ie=UTF8&qid=1400668237'.format(page) for page in xrange(1,30)]

回答于 2025-04-18 由 Python大师

分享举报

在Python Scrapy中处理分页

1 个回答

撰写回答