假设我有一个这样的文本文件:
<html><head>Headline<html><head>more words
</script>even more words</script>
<html><head>Headline<html><head>more words
</script>even more words</script>
我怎样才能把这些标签放到这样的列表中:
<html>
<head>
<html>
<head>
</script>
</script>
<html>
<head>
<html>
<head>
</script>
</script>
我想这就是你想要的:
希望这有帮助
Python对此有一个HTMLParser模块。
这里有一些代码可以满足您的需要:
在
parser.feed
中输入字符串输出:
关于SO的讨论应该有助于:Using HTMLParser in Python efficiently
相关问题 更多 >
编程相关推荐