使用urllib时出现格式错误的与号

2024-05-16 07:10:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图解析一个格式如下的html文件。我在本地存储了一个副本,并编写了一个脚本来解析文件。你知道吗

ECE 231  <b><u>&amp;</u></b>  Elements of Electrical    (3)|No Comparable Course 
        Engineering                  |                                      
ECE 231L    Elements of Electrical    (1)|                                      
        Engineering Lab              |                                                  

一切都很正常,但我发现我在本地保存的示例版本与我通过编程从站点获取的版本之间存在差异。我发现“和号”的处理方式与我预期的不同:

ECE 231  <B ><U >&</B></U>  Elements of Electrical    (3)|No Comparable Course 
        Engineering                  |                                      
ECE 231L    Elements of Electrical    (1)|                                      
        Engineering Lab              |                                      

这是我用来打开和读取文件的方法。你知道吗

import urllib.request
url = "some url"

file = urllib.request.urlopen(url)
contents = file.read()
# contents = file.read().decode('ascii')

f = open('file.html','wb')
f.write( contents )
f.close()

文档中的所有其他和标记保持不变。当我在浏览器中打开文件并再次下载它时,它会将html重新格式化为我最初假设的格式。你知道吗

这不是一个大问题,我只是好奇为什么会是这样。你知道吗


Tags: 文件ofnourlhtml格式contentslab