使用正则表达式在Python中删除标记

Question

有一个字符串：

myString = '<p>Phone Number:</p><p>706-878-8888</p>'

我想用正则表达式把所有的HTML标签去掉，这里指的是段落标签。

谢谢！

Answer 1

使用 re.sub：

>>> re.sub('<[^>]+>', '', '<p>Phone Number:</p><p>706-878-8888</p>')
'Phone Number:706-878-8888'

如果你只是想去掉标签，使用 re 是个不错的选择。不过，如果你想做一些更复杂的事情（比如解析HTML），我建议你看看 BeautifulSoup。

Answer 2

使用BeautifulSoup，正如评论中提到的：

>>> from BeautifulSoup import BeautifulSoup
>>> BeautifulSoup(myString).text
u'Phone Number:706-878-8888'

2 个回答