我已经使用请求获取了一个网站的html,我想将其转储到一个文本文件中供以后分析。在编写文本文件后,当我尝试用文本编辑器打开它时,它会思考一段时间,然后什么也不显示,并且该文件在窗口顶部标记为“锁定”。文本显示在预览中,当我查看文件信息时,“锁定”框未选中。我可以用python重新打开文件,但不能用TextEdit查看。我甚至不能在Vim中看到它
我应该提到这个get请求中的html是以字节形式出现的,必须对其进行解码
作为一个实验,我将每一行打印到自己的文件中,并测试哪一行可以打开或不打开。除以下两条线路外,每条线路(大约100条线路中)都能正常打开:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
及
<title>Website Title and Description</title>
下面是我获取和解码文件的方法
import requests as re
resp = re.get('some_website')
text = resp.text
s = text.decode()
with open('test.txt', 'w') as file:
file.write(s)
我也尝试过不在“wb”模式下解码和写作。还是一样的问题。这并不是所有的html都会发生,只是来自这个站点的html以字节的形式出现
我可以解决这个问题,但任何洞察都将不胜感激,我想知道为什么
目前没有回答
相关问题 更多 >
编程相关推荐