我有一个JSON文件,里面有一个“description”键,里面有很多HTML标记。我想把它们擦掉。它们被编码了,比如:
<ul>
而不是<ul>
我试过做text.replace('<.*?>','')
,但没用。
我也试过用BeautifulSoup做:
text = soup.get_text()
但它也不起作用(它只解码html标记) 最后,我试着做:
soup = BeautifulSoup(text)
text = soup.get_text()
text = text.replace('<.*?>','')
把这两个代码结合起来,但是标签不会被删除
我现在在“text”变量中得到了什么(在使用漂亮的soup解码html标记之后):"description":"</li></ul><p> </p><p><strong>TESTING AND QUALITY</strong></p><ul><li>....."
文本变量中的内容:"description":"TESTING AND QUALITY"
您可以尝试使用正则表达式而不是
replace
来丢弃HTML标记:尝试改用
decode_contents()
相关问题 更多 >
编程相关推荐