使用正则表达式在Python中删除标记
有一个字符串:
myString = '<p>Phone Number:</p><p>706-878-8888</p>'
我想用正则表达式把所有的HTML标签去掉,这里指的是段落标签。
谢谢!
2 个回答
2
使用 re.sub
:
>>> re.sub('<[^>]+>', '', '<p>Phone Number:</p><p>706-878-8888</p>')
'Phone Number:706-878-8888'
如果你只是想去掉标签,使用 re
是个不错的选择。不过,如果你想做一些更复杂的事情(比如解析HTML),我建议你看看 BeautifulSoup
。
2
使用BeautifulSoup,正如评论中提到的:
>>> from BeautifulSoup import BeautifulSoup
>>> BeautifulSoup(myString).text
u'Phone Number:706-878-8888'