Python从documen中剥离XML标记

3条回答

网友

1楼 · 编辑于 2024-05-23 13:36:44

不需要lxml外部库就可以替代耶利米的回答：

import xml.etree.ElementTree as ET
...
tree = ET.fromstring(Text)
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

应适用于任何Python>；=2.5

网友

2楼 · 编辑于 2024-05-23 13:36:44

Please, note, that usually it is not normal to do it by regular expressions. See Jeremiah answer.

试试这个：

import re

text = re.sub('<[^<]+>', "", open("/path/to/file").read())
with open("/path/to/file", "w") as f:
    f.write(text)

网友

3楼 · 编辑于 2024-05-23 13:36:44

最可靠的方法可能是使用LXML。

from lxml import etree
...
tree = etree.parse('somefile.xml')
notags = etree.tostring(tree, encoding='utf8', method='text')
print(notags)

它将避免用正则表达式“解析”XML的问题，并且应该正确地处理转义和所有事情。