我加载到BeutifulSoap4的Html格式如下:
\\u003C/span\\u003E\\u003Ca href=\\"javascript:void(0)\\" class=\\"something something22\\"\\u003EShowMore\\u003C/a\\u003E\\u003C/span\\u003E\\u003Cspan style=\\"display:none\\" class=\\"review-full-text\\"\\u003ESomething else....
因此,例如,BeutifulSoap4找不到html标记,它通常能够:
bsoup1.find_all("div", class_="some_class")
有没有一个标准的方法来解决这个问题?你知道吗
您可以尝试
unicode_escape
编码7.2.4. Python Specific Encodings
相关问题 更多 >
编程相关推荐