我正在尝试使用Python(一种我是新手的语言)从文档中剥离XML标记。这是我第一次尝试使用regex,这是我对最佳方案的一个希望。
mfile = file("somefile.xml","w")
for line in mfile:
re.sub('<./>',"",line) #trying to match elements between < and />
失败得很惨。我想知道如何处理正则表达式。
其次,我搜索了一下发现:http://code.activestate.com/recipes/440481-strips-xmlhtml-tags-from-string/
这似乎有效。但是,我想知道有没有一种更简单的方法来去掉所有的xml标记?也许用元素树?
不需要lxml外部库就可以替代耶利米的回答:
应适用于任何Python>;=2.5
试试这个:
最可靠的方法可能是使用LXML。
它将避免用正则表达式“解析”XML的问题,并且应该正确地处理转义和所有事情。
相关问题 更多 >
编程相关推荐