解压缩时出现错误3:存储的块长度无效

2024-05-22 18:47:01 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在抓取一个网站，它包含许多网址，从中O需要获取数据。我使用XPath获取了所有的hrefs（url）并保存到一个列表中。我把这个单子圈起来，提出了一个请求。下面是我的蜘蛛代码

class ExampledotcomSpider(BaseSpider):
   name = "exampledotcom"
   allowed_domains = ["www.example.com"]
   start_urls = ["http://www.example.com/movies/city.html"]


   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       cinema_links = hxs.select('//div[@class="contentArea"]/div[@class="leftNav"]/div[@class="cinema"]/div[@class="rc"]/div[@class="il"]/span[@class="bt"]/a/@href').extract()
       for cinema_hall in cinema_links:
            yield Request(cinema_hall, callback=self.parse_cinema)


   def parse_cinema(self, response):
       hxs = HtmlXPathSelector(response)
       cinemahall_name = hxs.select('//div[@class="companyDetails"]/div[@itemscope=""]/span[@class="srchrslt"]/h1/span/text()').extract()
       ........

例如，在这里，我在列表中有60个url，对于大约37个url没有下载：对于这些url，出现了一条错误消息：

2012-06-06 14:00:12+0530 [exampledotcom] ERROR: Error downloading <GET http://www.example.com/city/Cinema-Hall-70mm-%3Cnear%3E-place/040PXX40-XX40-000147377847-A6M3>: Error -3 while decompressing: invalid stored block lengths
2012-06-06 14:00:12+0530 [exampledotcom] ERROR: Error downloading <GET http://www.example.com/city/Cinema-Hall-35mm-%3Cnear%3E-place/040PXX40-XX40-000164969686-H9C5>: Error -3 while decompressing: invalid stored block lengths

只有对一些网址刮是下载，其余的，我不明白发生了什么，我的代码有什么问题。

有人能建议我如何消除这些错误吗？

Tags： self div com http url city parse example

0条回答

目前没有回答

解压缩时出现错误3:存储的块长度无效

相关问题更多 >

编程相关推荐

热门问题

热门文章

解压缩时出现错误3:存储的块长度无效

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >