刮擦/爬行检测蜘蛛陷阱或无限网站

<?php if(isset($_GET['count'])){ $count = intval($_GET['count']); $previous = $count - 1; $next = $count + 1; ?> <a href="?count=<?php echo $previous;?>">< Previous</a> Current: <?php echo $count;?> <a href="?count=<?php echo $next;?>">Next ></a> <? } ?>

2条回答

网友

1楼 · 编辑于 2024-05-29 05:57:59

我能想到的一件事就是把所有的项目ID传递到下一个页面然后检查下一页是否有相同的项目，这意味着分页已经结束，没有新的记录

def parse(self, response):

    this_page_items = []
    for item in response.css("li .items")
        this_page_items.extend([ item.css("any unique thing here").extract_first() ])


    if "prev_page_items" in response.meta:
        prev_page_items = response.meta['prev_page_items']
        if sorted(prev_page_items) == sorted(this_page_items):
            return #ternimate next page calls

    #go to next page
    yield Request(url, callback=self.parse, meta={"prev_page_items": this_page_items})

网友

2楼 · 编辑于 2024-05-29 05:57:59

即使分页是无止境的，内容通常也不是。因此，当问题是无休止的分页时，您可以通过仅在当前页有内容时或（如果您想优化）仅当当前页具有已知的每页项目数时，才能通过获取下一页来防止无休止的循环。在

在其他情况下，例如浏览日历，其中某些日期可能具有其他日期没有的值，则可以对spider硬编码一个限制（如果下一个URL覆盖的日期是X或更早，则不要进一步解析）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章