htm中的BeutifulSoap4和转义数据

2024-05-23 20:58:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我加载到BeutifulSoap4的Html格式如下:

\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething else....

因此,例如,BeutifulSoap4找不到html标记,它通常能够:

bsoup1.find_all("div", class_="some_class")

有没有一个标准的方法来解决这个问题?你知道吗


Tags: html格式javascriptsomethingclasshrefspanvoid
1条回答
网友
1楼 · 发布于 2024-05-23 20:58:31

您可以尝试unicode_escape编码

data = '\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething'

print(data.encode('utf-8').decode('unicode_escape'))

7.2.4. Python Specific Encodings

相关问题 更多 >