lxml.etree，elemen t.text不返回elemen的整个文本

网友

1楼 · 编辑于 2024-05-14 23:47:02

对我来说，这看起来像一个lxml错误，但是如果你阅读了文档的话，根据设计。我是这样解决的：

def node_text(node):
    if node.text:
        result = node.text
    else:
        result = ''
    for child in node:
        if child.tail is not None:
            result += child.tail
    return result

网友

2楼 · 编辑于 2024-05-14 23:47:02

作为公共服务，为那些可能和我一样懒惰的人服务。这是上面的一些代码，你可以运行。

from lxml import etree

def get_text1(node):
    result = node.text or ""
    for child in node:
        if child.tail is not None:
            result += child.tail
    return result

def get_text2(node):
    return ((node.text or '') +
            ''.join(map(get_text2, node)) +
            (node.tail or ''))

def get_text3(node):
    return (node.text or "") + "".join(
        [etree.tostring(child) for child in node.iterchildren()])


root = etree.fromstring(u"<td> text1 <a> link </a> text2 </td>")

print root.xpath("text()")
print get_text1(root)
print get_text2(root)
print root.xpath("string()")
print etree.tostring(root, method = "text")
print etree.tostring(root, method = "xml")
print get_text3(root)

输出为：

snowy:rpg$ python test.py 
[' text1 ', ' text2 ']
 text1  text2 
 text1  link  text2 
 text1  link  text2 
 text1  link  text2 
<td> text1 <a> link </a> text2 </td>
 text1 <a> link </a> text2

网友

3楼 · 编辑于 2024-05-14 23:47:02

使用element.xpath("string()")或lxml.etree.tostring(element, method="text")-请参见the documentation。

相关问题更多 >

编程相关推荐

热门问题

热门文章

lxml.etree，elemen t.text不返回elemen的整个文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >