HTMLParser和奇怪的行为
我需要用Python 3从以下网页提取一些信息:http://www.homefinance.nl/english/international-interest-rates/libor/libor-interest-rates-gbp.asp
我用urllib.request下载网页的过程看起来没问题,但奇怪的是,当我用自己的HTMLParser类来解析这个HTML文件时,解析在meta标签中间就停止了,而且没有给出任何理由。
这是我的代码:
import urllib.request
from html.parser import HTMLParser
def downloadLIBOR():
html_file = urllib.request.urlopen("http://www.homefinance.nl/english/international-interest-rates/libor/libor-interest-rates-gbp.asp")
return html_file
class tmpHTMLParser(HTMLParser):
def __init__(self):
self._libor = "0.81625 %"
self._stack = []
self._properStack = []
super().__init__()
def handle_starttag(self, tag, attrs):
print("starttag " + str(tag))
print(self.get_starttag_text())
self._stack.append(tag)
def handle_startendtag(self, tag, attrs):
print("startendtag")
def unknown_decl(self, data):
print("unknown_decl")
def handle_endtag(self, tag):
print("endtag " + str(tag))
self._stack.pop()
def _buildProperStack(webpage):
"""dev tool: return the stack leading to the libor rate libor into the webpage webpage."""
parser = tmpHTMLParser()
parser.feed(webpage)
if __name__ == "__main__":
webpage = downloadLIBOR()
print("download done")
html = str(webpage.read())
_buildProperStack(html)
exit(0)
2 个回答
0
我不太清楚你具体想做什么,但用BeautifulSoup来解析HTML会更简单、更好用,而且出错的可能性也更小。
2
顺便提一下,我注意到你在 parser.feed() 之后忘记调用 parser.close() 了。这样可能会导致一些数据没有被处理完,而调用 close() 可以强制它完成这些操作。