停止抓取相同的网址

class LsbuSpider(CrawlSpider): name = "lsbu6" allowed_domains = ["lsbu.ac.uk"] start_urls = [ "http://www.lsbu.ac.uk" ] rules = [ Rule(SgmlLinkExtractor(allow=['lsbu.ac.uk/business-and-partners/.+']), callback='parse_item', follow=True), ] def parse_item(self, response): join = Join() sel = Selector(response) bits = sel.xpath('//*') scraped_bits = [] for bit in bits: scraped_bit = LsbuItem() scraped_bit['title'] = scraped_bit.xpath('//title/text()').extract() scraped_bit['desc'] = join(bit.xpath('//*[@id="main_content_main_column"]//text()').extract()).strip() scraped_bits.append(scraped_bit) return scraped_bits

2条回答

网友

1楼 · 编辑于 2024-05-19 22:26:16

DupeFilter默认启用：http://doc.scrapy.org/en/latest/topics/settings.html#dupefilter-class，它基于请求url。在

我在一个新的香草屑项目上尝试了一个简化版的spider，没有任何自定义配置。dupefilter正常工作，在几次请求之后爬网停止。我得说你的设置或者你的破版本有问题。我建议您升级到scrapy 1.0，只是为了确定：）

$ pip install scrapy  pre

我测试的简化蜘蛛：

^{pr2}$

网友

2楼 · 编辑于 2024-05-19 22:26:16

你的设计让爬行成圈。例如，有一个页面http://www.lsbu.ac.uk/business-and-partners/business，打开时包含指向“http://www.lsbu.ac.uk/business-and-partners/partners”的链接，而该页面又包含指向第一个页面的链接。因此，你无限期地绕圈子。在

为了克服这个问题，您需要创建更好的规则，消除循环引用。而且，您定义了两个相同的规则，这是不需要的。如果你想要follow你可以把它放在同一个规则上，你不需要一个新的规则。在

相关问题更多 >

编程相关推荐

热门问题

热门文章