使用Xpath提取锚点标签文本中的href

from scrapy.spider import Spider from scrapy.selector import Selector from nba.items import NBAItem class ESPNSpider(Spider): name = "ESPN" allowed_domains = ["espn.com"] start_urls = ["http://espn.go.com/nba/teams"] def parse(self, response): sel = Selector(response) sites = sel.xpath('//*[@id="content"]/div[3]/div[1]') items = [] for site in sites: item = NBAItem() item['team_name'] = site.xpath('//a[@class="bi"]/text()').extract() item['team_link'] = site.xpath('//a[@class="bi"]/@href').extract() item['team_stats_link'] = site.xpath('//a[text()='Stats']/@href').extract() items.append(item) return items

1条回答

网友

1楼 · 发布于 2024-05-14 13:10:43

循环中的xpath应该以.//开头，换句话说，需要使其相对于site。在

我还使用medium-logos类遍历ul内的li标记，而不是使用content在div中搜索第三个div中的第一个div标记：

class ESPNSpider(Spider):
    name = "ESPN"
    allowed_domains = ["espn.com"]
    start_urls = ["http://espn.go.com/nba/teams"]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="medium-logos"]//li')
        for site in sites:
            item = NBAItem()
            item['team_name'] = site.xpath('.//a[@class="bi"]/text()').extract()[0]
            item['team_link'] = site.xpath('.//a[@class="bi"]/@href').extract()[0]
            item['team_stats_link'] = site.xpath(".//a[text()='Stats']/@href").extract()[0]
            yield item

它产生：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章