使用正则表达式在Python中删除标记

-2 投票
2 回答
721 浏览
提问于 2025-04-17 11:58

有一个字符串:

myString = '<p>Phone Number:</p><p>706-878-8888</p>'

我想用正则表达式把所有的HTML标签去掉,这里指的是段落标签。

谢谢!

2 个回答

2

使用 re.sub

>>> re.sub('<[^>]+>', '', '<p>Phone Number:</p><p>706-878-8888</p>')
'Phone Number:706-878-8888'

如果你只是想去掉标签,使用 re 是个不错的选择。不过,如果你想做一些更复杂的事情(比如解析HTML),我建议你看看 BeautifulSoup

2

使用BeautifulSoup,正如评论中提到的:

>>> from BeautifulSoup import BeautifulSoup
>>> BeautifulSoup(myString).text
u'Phone Number:706-878-8888'

撰写回答