lxml将元素转换为元素

测试代码：

import lxml.html from lxml import etree # trying this to see if needed # to convert from element to elementtree #cmd='cat osu_test.txt' cmd='cat o2.txt' proc=subprocess.Popen(cmd, shell=True,stdout=subprocess.PIPE) s=proc.communicate()[0].strip() # s contains HTML not XML text #doc = lxml.html.parse(s) doc = lxml.html.parse('osu_test.txt') doc1 = lxml.html.fromstring(s) for node in doc.iter(): if len(node) == 0: print "aaa ",node.tag, doc.getpath(node) #print "aaa ",node.tag nt = etree.ElementTree(doc1) <<<<< doesn't work.. so what will?? for node in nt.iter(): if len(node) == 0: print "aaa ",node.tag, doc.getpath(node) #print "aaa ",node.tag

一、二、二、三

更新：：：

（解析html而不是xml）添加了阿巴斯建议的更改。出现以下错误：

doc1 = etree.fromstring(s) File "lxml.etree.pyx", line 2532, in lxml.etree.fromstring (src/lxml/lxml.etree.c:48621) File "parser.pxi", line 1545, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:72232) File "parser.pxi", line 1424, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:71093) File "parser.pxi", line 938, in lxml.etree._BaseParser._parseDoc (src/lxml/lxml.etree.c:67862) File "parser.pxi", line 539, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:64244) File "parser.pxi", line 625, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:65165) File "parser.pxi", line 565, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:64508) lxml.etree.XMLSyntaxError: Entity 'nbsp' not defined, line 48, column 220

更新：：：

设法使测试工作。我不太清楚为什么。如果有人想提供一个解释，这将有助于未来的人谁绊倒了。

from cStringIO import StringIO from lxml.html import parse doc1 = parse(StringIO(s)) for node in doc1.iter(): if len(node) == 0: print "aaa ", node.tag, doc1.getpath(node)

string IO模块/类似乎实现了IO功能，它满足了parse包继续处理测试html的输入字符串所需的功能。类似于其他语言中的强制转换功能。。。

谢谢

3条回答

网友

1楼 · 编辑于 2024-05-16 00:56:53

要从_Element（使用lxml.html.fromstring生成）获取根目录树，可以使用getroottree方法：

doc = lxml.html.parse(s)
tree = doc.getroottree()

网友

2楼 · 编辑于 2024-05-16 00:56:53

etree.fromstring方法解析XML字符串并返回根元素。etree.ElementTree类是元素周围的树包装，因此需要一个元素来实例化。

因此，将根元素传递给etree.ElementTree()构造函数应该可以得到您想要的：

root = etree.fromstring(s)
nt = etree.ElementTree(root)

网友

3楼 · 编辑于 2024-05-16 00:56:53

由如下调用返回的_Element：

tree = etree.HTML(result.read(), etree.HTMLParser())

可以做成这样的_ElementTree：

tree    = tree.getroottree() # convert _Element to _ElementTree

希望这就是你所期望的。

测试代码：

相关问题更多 >

编程相关推荐

热门问题

热门文章