使用Python解析静态HTML文件

-1 投票

1 回答

1215 浏览

提问于 2025-04-18 07:46

我在硬盘上有一个静态的HTML文件，我想用Python提取里面的源代码。我尝试过用urllib2这个库，但出现了一个错误，提示说“urlopen错误：未知的URL类型”。我猜这可能是因为我的URL其实是硬盘上的一个文件路径，而不是一个有效的HTTP地址。我该怎么提取这个代码呢？这是我尝试过的：

import urllib2
url = "C:\Program Files\Whatever Folder\Whatever.html"
file = urllib2.urlopen(url)
data = file.read()

OUT = data

文件路径静态文件处理 urllib2 html解析源代码提取

1 个回答

你应该使用内置的 open 函数，比如这样：

url = "C:\Program Files\Whatever Folder\Whatever.html"
with open(url, 'r') as f:
    data = f.read()

你也可以使用一些库来帮助你解析 HTML，比如 BeautifulSoup。

回答于 2025-04-18 由 Python大师

分享举报