从Python中的大字符串中删除编码的HTML标记

2024-04-25 04:38:34 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个JSON文件，里面有一个“description”键，里面有很多HTML标记。我想把它们擦掉。它们被编码了，比如： <ul>而不是<ul>

我试过做text.replace('<.*?>','')，但没用。
我也试过用BeautifulSoup做：

text = soup.get_text()

但它也不起作用（它只解码html标记）最后，我试着做：

soup = BeautifulSoup(text)
text = soup.get_text()
text = text.replace('<.*?>','')

把这两个代码结合起来，但是标签不会被删除

我现在在“text”变量中得到了什么（在使用漂亮的soup解码html标记之后）：
"description":"</li></ul> TESTING AND QUALITY<ul><li>....."

文本变量中的内容：
"description":"TESTING AND QUALITY"

Tags： and text 标记 get html li description 解码

2条回答

网友

1楼 · 编辑于 2024-04-25 04:38:34

您可以尝试使用正则表达式而不是replace来丢弃HTML标记：

import re

soup = BeautifulSoup(text)
text = soup.get_text()
text = re.sub(r'<.*?>', '', text)

网友

2楼 · 编辑于 2024-04-25 04:38:34

尝试改用decode_contents()