报废请求返回notImplementedE

class IkeaSpider(scrapy.Spider) : name = "Ikea" allower_domains = ["http://www.ikea.com/"] start_urls = ["http://www.ikea.com/fr/fr/catalog/productsaz/8/"] def parse_url(self, response): for sel in response.xpath('//div[@id="productsAzLeft"]'): base_url = 'http://www.ikea.com/' follow_url = sel.xpath('//span[@class="productsAzLink"]/@href').extract() complete_url = urlparse.urljoin(base_url, follow_url) request = Request(complete_url, callback = self.parse_page) yield request def parse_page(self, response):

2016-01-04 22:06:31 [scrapy] ERROR: Spider error processing <GET http://www.ikea.com/fr/fr/catalog/productsaz/8/> (referer: None) Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packages/twisted/internet/defer.py", line 588, in _runCallbacks current.result = callback(current.result, *args, **kw) File "/usr/local/lib/python2.7/dist-packages/scrapy/spiders/__init__.py", line 76, in parse raise NotImplementedError NotImplementedError

2条回答

网友

1楼 · 编辑于 2024-06-17 15:34:47

您的spider需要一个parse方法，它是所有初始请求的默认回调。您只需将parse_url方法重命名为parse，它就可以正常工作了。

class IkeaSpider(scrapy.Spider) :

    name = "Ikea"
    allower_domains = ["http://www.ikea.com/"]
    start_urls = ["http://www.ikea.com/fr/fr/catalog/productsaz/8/"]


    def parse(self, response):

        for sel in response.xpath('//div[@id="productsAzLeft"]'):

            base_url = 'http://www.ikea.com/'
            follow_url = sel.xpath('//span[@class="productsAzLink"]/@href').extract()
            complete_url = urlparse.urljoin(base_url, follow_url)
            request = Request(complete_url, callback = self.parse_page)

            yield request

替代品

您还可以定义一个start_requests方法，并像在这里一样使用一个定义的callback参数手动生成scrapy.Requests。

网友

2楼 · 编辑于 2024-06-17 15:34:47

如果只想使用蜘蛛中的start_urls，则必须实现parse方法，因为您可以检查here

parse方法是从start_urls中的url发出的请求的默认回调。

如果要从一开始就控制请求，还可以使用start_requests方法。

替代品

相关问题更多 >

编程相关推荐

热门问题

热门文章