刮痧蜘蛛刮内容部分和离开其他

# -*- coding: utf-8 -*- import scrapy from scrapy.contrib.loader import ItemLoader from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.selector import XmlXPathSelector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from cancerstories.items import CancerstoriesItem class LungcancerSpider(CrawlSpider): name = "lungcancer" allowed_domains = ["coloncancercoalition.org"] start_urls = ( 'http://www.coloncancercoalition.org/community/stories/survivor-stories/', ) rules = ( Rule(SgmlLinkExtractor(allow=[r'http://www.coloncancercoalition.org/\d+/\d+/\d+/\w+']),callback='parse_page',follow=True), ) def parse_page(self, response): Li = ItemLoader(item=CancerstoriesItem(),response=response) Li.add_xpath('name', '/html/body/div[4]/div[1]/div[1]/div/h1/text()') Li.add_xpath('story','//../div/div/p/text()') yield Li.load_item()

1条回答

网友

1楼 · 发布于 2024-05-15 11:45:17

我想你需要把所有段落的文字加入到帖子内容下：

Li.add_xpath('story', '//div[@class="post-content"]/div/p/text()', Join(" "))

其中^{}是作为以下格式导入的输出处理器：

from scrapy.loader.processors import Join

相关问题更多 >

编程相关推荐

热门问题

热门文章