如何使用scrapy获取嵌套文本值

2024-04-19 14:38:04 发布

您现在位置:Python中文网/ 问答频道 /正文

下面是提取的div代码,我需要从中获取输出,但尝试了通常的提取没有工作

    <div class="container-inhalt">
            <div class="container-hauptinfo s16">
                <a title="Ki-dong Kim" id="0" href="/ki-do190">Ki-Kim</a>               </div>
            <div class="container-zusatzinfo-small">
                <b>Age:</b> 48                  Years&nbsp;

                <img src="https://tny/87.png?lm=1520611569" title="Korea, South" alt="Ka, Sh" class="flaggenrahmen" />                  <br />
                <b>Appointed:</b> Apr 23, 2019                  <br />
                <b>Contract expires:</b> -                  <br />
                <b>Success rate as coach:</b>  1,63 PPM             </div>
            <div class="container-zusatzinfo">
                                </div>
        </div>

输出:1,63 PPM


1条回答
网友
1楼 · 发布于 2024-04-19 14:38:04

如果您希望继续使用webscraping学习XPathXPath Functions,这将是一项可靠的投资,因为描述如何定位特定节点几乎总是可能的。然后,Scrapy还允许为“最后一英里”部分运行正则表达式:

def parse(self, response):
    response.xpath('//b[contains("Success rate as coach:", text())]'
                   '/following-sibling::node()'
                   ).re(r'\s*(\S+)\s*')
# ['1,63', 'PPM']

相关问题 更多 >