抓取所有站点地图链接

2条回答

网友

1楼 · 编辑于 2024-05-16 08:52:47

实际上，您可以创建新的请求对象来爬网由sitemapsider创建的url，并使用新的回调解析响应：

class MySpider(SitemapSpider):
    name = "xyz"
    allowed_domains = ["xyz.nl"]
    sitemap_urls = ["http://www.xyz.nl/sitemap.xml"] 

    def parse(self, response):
        print response.url
        return Request(response.url, callback=self.parse_sitemap_url)

    def parse_sitemap_url(self, response):
        # do stuff with your sitemap links

网友

2楼 · 编辑于 2024-05-16 08:52:47

您需要添加站点地图规则来处理已爬网URL中的数据，并且可以创建任意数量的站点地图规则。例如，假设您有一个名为http://www.xyz.nl//x/的页面，您希望创建一个规则：

class MySpider(SitemapSpider):
    name = 'xyz'
    sitemap_urls = 'http://www.xyz.nl/sitemap.xml'
    # list with tuples - this example contains one page 
    sitemap_rules = [('/x/', parse_x)]

    def parse_x(self, response):
        sel = Selector(response)
        paragraph = sel.xpath('//p').extract()

        return paragraph

相关问题更多 >

编程相关推荐

热门问题

热门文章

抓取所有站点地图链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >