Python中文
首页
教程
问答
标签
搜索
登录
注册
在jibberish中以漂亮的结果进行报废
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正试图用BeautifulSoup4刮一个网站,但是在body标签之后的一切都是胡言乱语,并且破坏了终端。 该网站使用utf-8标记,因此我尝试了解码和不同的html解析器,包括html.parser和lxml</p> <pre><code>obsObj = BeautifulSoup(html.read().decode('utf-8','ignore'), "html5lib") print(bsObj.prettify()) </code></pre> <p>结果:</p> <pre><code><html> <head> </head> <body> }zƲu}y┴(M։ʖO┬┌;R° ─H$D◆P⎼^▒&▒└⎻;\␍␍ (Q│P]]]U]]U£œ␉NG/?5˶ض&±├;ӗ/D&▒└⎻;·GW5Q߶/..(ڧ?ڗV*V┘┌[;≥⎻^N0T4ۓ┐'┴┘S7; њ#─K </code></pre> <p>网站上的相关内容包括:</p> <pre><code><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="da" lang="da" dir="ltr" class="js"><head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你可能从网站上得到了压缩数据。像johnashu一样,使用<a href="http://docs.python-requests.org/en/master/" rel="nofollow noreferrer">requests library</a>将自动为您解压。您可以手动执行此操作,但这是一个更难的问题</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何提高Djang的410误差
3 回答
如何提高doc2vec模型中两个文档(句子)的余弦相似度?
1 回答
如何提高Docker的日志限制?|[输出已剪裁,达到日志限制100KiB/s]
1 回答
如何提高DQN的性能?
3 回答
如何提高EasyOCR的准确性/预测?
8 回答
如何提高Euler#39项目解决方案的效率?
4 回答
如何提高F1成绩进行分类
5 回答
如何提高FaceNet的准确性
5 回答
如何提高fft处理的精度?
10 回答
如何提高Fibonacci实现对大n的精度?
9 回答
如何提高Flask与psycopg2的连接时间
8 回答
如何提高FosterCauer变换的scipy.signal.invres()的数值稳定性?
10 回答
如何提高gae查询的性能?
1 回答
如何提高GANs用于时间序列预测/异常检测的结果
7 回答
如何提高gevent和tornado组合的性能?
1 回答
如何提高googleappengin请求日志的吞吐量
1 回答
如何提高googlevision文本识别的准确性
8 回答
如何提高groupby/apply效率
2 回答
如何提高Gunicorn中的请求率
3 回答
如何提高G中的文件编码转换
3 回答