用python中的lxml和requests包解析xml和html页面

2024-04-24 15:36:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在尝试使用python中的lxml和requests包来解析xml和html页面。为此,我使用以下代码:

在python中:

import requests
import lxml.etree
url = ""
req = requests.get(url)
tree = html.fromstring(req.content)
root = tree.xpath('')
for item in root:
     print(item.text)

这段代码工作得很好,但有些网页不能正确显示其内容,需要设置编码utf-8,但我不知道如何在这段代码中添加set-encoding


Tags: 代码importtreeurlgethtmlroot页面
1条回答
网友
1楼 · 发布于 2024-04-24 15:36:34

requests自动解码来自服务器的内容。在

需要了解的重要事项:

r.content-包含尚未解码的响应内容

r.encoding-包含有关响应内容编码的信息

r.text-根据official doc,它已经是{}的解码版本

遵循unicode标准,我已经习惯了r.text,但是您仍然可以使用

r.content.decode(r.encoding)

希望有帮助。在

相关问题 更多 >