使用Scrapy用单个蜘蛛抓取多个网站

class StackItem(scrapy.Item): def __setitem__(self, key, value): if key not in self.fields: self.fields[key] = scrapy.Field() self._values[key] = value class betaSpider(CrawlSpider): name = "betaSpider" def __init__(self, *args, **kwargs): super(betaSpider, self).__init__(*args, **kwargs) self.start_urls = [kwargs.get('start_url')] rules = (Rule (LinkExtractor(unique=True, allow=('.*\?id1=.*',),restrict_xpaths=('//a[@class="prevNext next"]',)), callback="parse_items", follow= True),) def parse_items(self, response): hxs = HtmlXPathSelector(response) posts = hxs.select("//article[@class='classified']") items = [] for post in posts: item = StackItem() item["job_role"] = post.select("div[@class='uu mb2px']/a/strong/text()").extract() item["company"] = post.select("p[1]/text()").extract() item["location"] = post.select("p[@class='mb5px b red']/text()").extract() item["desc"] = post.select("details[@class='aj mb10px']/text()").extract() item["read_more"] = post.select("div[@class='uu mb2px']/a/@href").extract() items.append(item) for item in items: yield item

2条回答

网友

1楼 · 编辑于 2024-05-23 15:29:15

不同的spider会更好你可以使用API从脚本运行Scrapy，而不是运行Scrapy crawl的典型方式记住Scrapy是建立在Twisted异步网络库之上的，所以你需要在Twisted reactor中运行它。在

网友

2楼 · 编辑于 2024-05-23 15:29:15

我认为你必须创建一个通用的spider来从differet获取数据网站。那可以通过添加网站一个接一个到蜘蛛和通用代码。在

如果网站完全不同，这将是非常庞大的代码。从您的要求，我们可以概括的代码，并作出蜘蛛，提供上述细节，如果任何网站是给定的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章