在多个网站上分析电子邮件

from scrapy.contrib.spiders import CrawlSpider from sufio.items import MItem class MSpider(CrawlSpider): name = 'mparser' start_urls = [ 'https://horizonsupply.myshopify.com/pages/about-us', 'https://fnatic-shop.myshopify.com/pages/about-us', 'https://horizonsupply.myshopify.com/pages/about-us', 'https://fnatic-shop.myshopify.com/pages/about-us' ] def parse(self, response): item = MItem() item['facebook'] = response.xpath('//a[contains(@href, "facebook")]/@href').extract_first() item['twitter'] = response.xpath('//a[contains(@href, "twitter")]/@href').extract_first() # item['email'] = yield item

1条回答

网友

1楼 · 发布于 2024-04-26 04:50:10

我用这样的方法：

mails = response.xpath('//a[contains(@href, "mailto:")]/@href').extract()
    mails += response.xpath('//*[not(self::script or self::style)]/text()[normalize-space(.)][contains(.,"@")] | '
                            '//a[contains(./@href,"@")]/@href').extract()
    for a in response.xpath('//a[contains(text(),"@")]'):
        ma = ''.join(a.xpath('./text()').extract())
        mails.append(ma)

但在此之后，我使用附加函数来删除重复和无效行。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章