刮屑提取<li>，内有跨度

<div class="col-6 col-lg-3"> List of Birds <ul class="bird-forms"> <li>Crow Black</li> <li>Peacock Multicolored</li> <li>Dove Multicolored</li> <li>Sparrow Brown</li> <li>Goose Multicolored</li> <li>Ostrich Multicolored</li> </ul> </div>

3条回答

网友

1楼 · 编辑于 2024-06-16 13:00:54

只需使用XPath string()：

birds = []
for li in response.xpath('//ul[@class="bird-forms"]/li'):
    bird = li.xpath('string(.)').get()
    birds.append(bird)

网友

2楼 · 编辑于 2024-06-16 13:00:54

我们可以单独提取细节，并在以下情况下合并它们：

   li_tags = response.xpath(".//ul[@class='bird-forms']//li/text()").extract()
    color_tags = response.xpath(".//ul[@class='bird-forms']//span[@class='color']/text()").extract()


[" ".join(entry) for entry in zip(li_tags, color_tags)]

['Crow  Black',
 'Peacock  Multicolored',
 'Dove  Multicolored',
 'Sparrow  Brown',
 'Goose  Multicolored',
 'Ostrich  Multicolored']

网友

3楼 · 编辑于 2024-06-16 13:00:54

您需要先分别选择li标记，然后为每个li标记选择文本：

data = []
for li_tag in response.css("ul.bird-forms li"):
    data.append(" ".join(li_tag.css("*::text").extract()))

与python列表理解相同：

data = [" ".join(x.css("*::text").extract()) for x in response.css("ul.bird-forms li")]

print(data)
# output <class 'list'>: ['Crow  Black', 'Peacock  Multicolored',
# 'Dove  Multicolored', 'Sparrow  Brown', 'Goose  Multicolored', 'Ostrich  Multicolored']

相关问题更多 >

编程相关推荐

热门问题

热门文章

刮屑提取<li>，内有跨度

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >