使用Python解析静态HTML文件
我在硬盘上有一个静态的HTML文件,我想用Python提取里面的源代码。我尝试过用urllib2这个库,但出现了一个错误,提示说“urlopen错误:未知的URL类型”。我猜这可能是因为我的URL其实是硬盘上的一个文件路径,而不是一个有效的HTTP地址。我该怎么提取这个代码呢?这是我尝试过的:
import urllib2
url = "C:\Program Files\Whatever Folder\Whatever.html"
file = urllib2.urlopen(url)
data = file.read()
OUT = data
1 个回答
1
你应该使用内置的 open 函数,比如这样:
url = "C:\Program Files\Whatever Folder\Whatever.html"
with open(url, 'r') as f:
data = f.read()
你也可以使用一些库来帮助你解析 HTML,比如 BeautifulSoup。