需要深入绝对xpath的文本还可以使用lxml getpath函数

library(xml2) root = read_html("<div><p>abc<br> xyz</p></div>") elements = xml_find_all(root, "//.") xml_path(elements) #> [1] "/" "/html" #> [3] "/html/body" "/html/body/div" #> [5] "/html/body/div/p" "/html/body/div/p/text()[1]" #> [7] "/html/body/div/p/br" "/html/body/div/p/text()[2]"

root = html.fromstring("<div><p>abc<br> xyz</p></div>") elements = root.xpath("//*") xpath_elements = [etree.ElementTree(root).getpath(x) for x in elements] print(xpath_elements) #> ['/html', '/html/body', '/html/body/div', '/div/p', '/div/p/br']

1条回答

网友

1楼 · 发布于 2024-05-19 00:00:24

在lxmlroot.xpath(XPATH)中，文本节点作为字符串返回，而不是作为元素对象返回。你知道吗

您可以尝试以下解决方法（它仍然不会以与R相同的方式工作）：

elements = root.xpath("//*[text()]")
xpath_elements = []
for element in elements:
    for text_node in list(element.itertext()):
        if text_node.strip():
            xpath_elements.append(etree.ElementTree(root).getpath(element) + "/text()[%d]" % (list(element.itertext()).index(text_node) + 1))

print(xpath_elements)  # ['/div/p/text()[1]', '/div/p/text()[2]']

另一方面，由于list.index(element)返回第一次element出现的索引，这将不适用于具有完全相同文本节点的节点，例如<p>QWERTY<br>QWERTY</p>。这是一个非常罕见的案件，但让我知道如果你需要处理这样的案件也

相关问题更多 >

编程相关推荐

热门问题

热门文章