我一直在尝试使用python中的lxml和requests包来解析xml和html页面。为此,我使用以下代码:
在python中:
import requests
import lxml.etree
url = ""
req = requests.get(url)
tree = html.fromstring(req.content)
root = tree.xpath('')
for item in root:
print(item.text)
这段代码工作得很好,但有些网页不能正确显示其内容,需要设置编码utf-8,但我不知道如何在这段代码中添加set-encoding
requests
自动解码来自服务器的内容。在需要了解的重要事项:
r.content
-包含尚未解码的响应内容r.encoding
-包含有关响应内容编码的信息r.text
-根据official doc,它已经是{遵循unicode标准,我已经习惯了
r.text
,但是您仍然可以使用希望有帮助。在
相关问题 更多 >
编程相关推荐