使用scrapy从web scrawing输出CSV

import scrapy class TextPostItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() class MySpider(scrapy.Spider): name = "craig_spider" allowed_domains = ["craigslist.org"] start_urls = ["http://sfbay.craigslist.org/search/npo"] def parse(self, response): number = 0 for page in range(0, 20): yield scrapy.Request("http://sfbay.craigslist.org/search/npo?=%s" % number, callback=self.parse_item, dont_filter=True) number += 100 def parse_item(self, response): item = TextPostItem() item['title'] =response.xpath("//span[@class='pl']/a/text()").extract() item['link'] = response.xpath("//span[@class='pl']/a/@href").extract() return item

1条回答

网友

1楼 · 发布于 2024-06-02 05:47:39

问题是您得到一个带有多个//span[@class='pl']/a/字段的响应，将每个text()加载到一个列表中，并将其分配给item['title']，然后将每个@href加载到一个列表中并将其分配给item['link']。在

换句话说，对于第一个响应，您基本上是在执行以下操作：

item['title'] = [title1, title2, ..., title100]
item['link'] = [url1, url2, ..., url100]

所以，它被发送到CSV：

^{pr2}$

若要解决此问题，请遍历每个//span[@class='pl']/a/，并为每个项目设置单独的项。在

def parse_item(self, response):
    for span in response.xpath("//span[@class='pl']/a"):
        item = TextPostItem()
        item['title'] = span.xpath(".//text()").extract()
        item['link'] = span.xpath(".//@href").extract()
        yield item

相关问题更多 >

编程相关推荐

热门问题

热门文章