我正试图用BeautifulSoup4刮一个网站,但是在body标签之后的一切都是胡言乱语,并且破坏了终端。 该网站使用utf-8标记,因此我尝试了解码和不同的html解析器,包括html.parser和lxml
obsObj = BeautifulSoup(html.read().decode('utf-8','ignore'), "html5lib")
print(bsObj.prettify())
结果:
<html>
<head>
</head>
<body>
}zƲu}y┴(M։ʖO┬┌;R° ─H$D◆P⎼^▒&▒└⎻;\␍␍ (Q│P]]]U]]U£œ␉NG/?5˶ض&±├;ӗ/D&▒└⎻;·GW5Q߶/..(ڧ?ڗV*V┘┌[;≥⎻^N0T4ۓ┐'┴┘S7; њ#─K
网站上的相关内容包括:
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="da" lang="da" dir="ltr" class="js"><head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
这对我来说很好
返回
你可能从网站上得到了压缩数据。像johnashu一样,使用requests library将自动为您解压。您可以手动执行此操作,但这是一个更难的问题
相关问题 更多 >
编程相关推荐