Scrapy LinkExtractor遵循哪种正则表达式？

2024-05-19 03:21:48 发布

男 | 程序猿一只，喜欢编程写python代码。

我试着从亚马逊上抓取一个类别，但是我在Scrapy中得到的链接与浏览器中的链接不同。现在，我试图跟踪下一页，在Scrapy（打印成txt文件）中，我看到了以下链接：

<span class="pagnMore">...</span>
<span class="pagnLink"><a href="/s?ie=UTF8&page=4&rh=n%3A2619533011%2Ck%3Apet%20supplies%2Cp_72%3A2661618011%2Cp_n_date_first_available_absolute%3A2661609011" >4</a></span>
<span class="pagnCur">5</span>
<span class="pagnLink"><a href="/s?ie=UTF8&page=6&rh=n%3A2619533011%2Ck%3Apet%20supplies%2Cp_72%3A2661618011%2Cp_n_date_first_available_absolute%3A2661609011" >6</a></span>
<span class="pagnMore">...</span>
<span class="pagnDisabled">20</span>
<span class="pagnRA"> <a title="Next Page"
                   id="pagnNextLink"
                   class="pagnNext"
                   href="/s?ie=UTF8&page=6&rh=n%3A2619533011%2Ck%3Apet%20supplies%2Cp_72%3A2661618011%2Cp_n_date_first_available_absolute%3A2661609011">
<span id="pagnNextString">Next Page</span>

我想跟踪pagnNextString链接，但我的蜘蛛甚至不开始爬行：

^{pr2}$

如果我摆脱了这个规则或者做了一些事情，比如'^http.*'，它是有效的，但是它遵循所有的规则。我做错什么了？在

Tags： date 链接 page utf8 ie class next available

1条回答

网友

1楼 · 发布于 2024-05-19 03:21:48

只检查page参数：

Rule(SgmlLinkExtractor(allow=r"page=\d+"), callback="parse_items", follow= True),

Scrapy LinkExtractor遵循哪种正则表达式？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Scrapy LinkExtractor遵循哪种正则表达式？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >