"How can I get to some specific text using selector?" 如何通过选择器获取特定文本？

<div class="contact-details block dark"> <h3>Contact Details</h3><p>Company Name: PIMS Group Pty Ltd<br>Phone: +61 7 4969 3900<br>Fax: +61 7 4969 3999<br>Email: <a href="mailto:admin@pims.net.au">admin@pims.net.au</a><br>Web: <a target="_blank" href="http://www.pims.net.au">http://www.pims.net.au</a></p> <h4>Address</h4><p>43 Evans Avenue<br>North Mackay<br>QLD<br>4740</p> <h4>Contact</h4><p></p> </div>

2条回答

网友

1楼 · 编辑于 2024-06-08 16:47:09

您可以尝试使用以下XPath表达式来获取所需的数据：

# For Fax
substring-after(//div[@class="contact-details block dark"]/p/text()[starts-with(., "Fax:")], "Fax: ")
# For Phone
substring-after(//div[@class="contact-details block dark"]/p/text()[starts-with(., "Phone:")], "Phone: ")

网友

2楼 · 编辑于 2024-06-08 16:47:09

请参见： -Get the inner HTML of a element in lxml

因为键值是非结构化的，所以这是不可靠的，但是可以执行以下操作：

for x in inner_html.split('<br>'):
    if ':' in x:
        yield x.split(':')[0], x.split(':')[1]
    else:
        yield 'unknown', x

或者类似的东西，但是您必须添加某种逻辑来对键值进行排序。我不确定regex是否合适，因为无法保证数据的结构，所以逻辑将是脆弱的，但有些黑客可能在这里工作。你知道吗

为了给它提供更多的结构，您可以使用xpath选择，例如：

//div.contact-details/descendant-or-self::h4[text()='Address']//p

相关问题更多 >

编程相关推荐

热门问题

热门文章