使用urllib时出现格式错误的与号

2024-05-16 07:10:33 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图解析一个格式如下的html文件。我在本地存储了一个副本，并编写了一个脚本来解析文件。你知道吗

ECE 231  <b><u>&amp;</u></b>  Elements of Electrical    (3)|No Comparable Course 
        Engineering                  |                                      
ECE 231L    Elements of Electrical    (1)|                                      
        Engineering Lab              |

一切都很正常，但我发现我在本地保存的示例版本与我通过编程从站点获取的版本之间存在差异。我发现“和号”的处理方式与我预期的不同：

ECE 231  <B ><U >&</B></U>  Elements of Electrical    (3)|No Comparable Course 
        Engineering                  |                                      
ECE 231L    Elements of Electrical    (1)|                                      
        Engineering Lab              |

这是我用来打开和读取文件的方法。你知道吗

import urllib.request
url = "some url"

file = urllib.request.urlopen(url)
contents = file.read()
# contents = file.read().decode('ascii')

f = open('file.html','wb')
f.write( contents )
f.close()

文档中的所有其他和标记保持不变。当我在浏览器中打开文件并再次下载它时，它会将html重新格式化为我最初假设的格式。你知道吗

这不是一个大问题，我只是好奇为什么会是这样。你知道吗

Tags：文件 of no url html 格式 contents lab

0条回答

目前没有回答

使用urllib时出现格式错误的与号

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用urllib时出现格式错误的与号

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >