将写入html到文本文件意外产生的锁定文件不包括在内

2024-06-13 01:49:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经使用请求获取了一个网站的html,我想将其转储到一个文本文件中供以后分析。在编写文本文件后,当我尝试用文本编辑器打开它时,它会思考一段时间,然后什么也不显示,并且该文件在窗口顶部标记为“锁定”。文本显示在预览中,当我查看文件信息时,“锁定”框未选中。我可以用python重新打开文件,但不能用TextEdit查看。我甚至不能在Vim中看到它

我应该提到这个get请求中的html是以字节形式出现的,必须对其进行解码

作为一个实验,我将每一行打印到自己的文件中,并测试哪一行可以打开或不打开。除以下两条线路外,每条线路(大约100条线路中)都能正常打开:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<title>Website Title and Description</title>

下面是我获取和解码文件的方法

import requests as re

resp = re.get('some_website')

text = resp.text

s = text.decode()

with open('test.txt', 'w') as file:
    file.write(s)

我也尝试过不在“wb”模式下解码和写作。还是一样的问题。这并不是所有的html都会发生,只是来自这个站点的html以字节的形式出现

我可以解决这个问题,但任何洞察都将不胜感激,我想知道为什么


Tags: 文件textreget字节titlehtmlas