HTMLParser和奇怪的行为

0 投票

2 回答

546 浏览

提问于 2025-04-16 14:44

我需要用Python 3从以下网页提取一些信息：http://www.homefinance.nl/english/international-interest-rates/libor/libor-interest-rates-gbp.asp

我用urllib.request下载网页的过程看起来没问题，但奇怪的是，当我用自己的HTMLParser类来解析这个HTML文件时，解析在meta标签中间就停止了，而且没有给出任何理由。

这是我的代码：

import urllib.request
from html.parser import HTMLParser

def downloadLIBOR():
    html_file = urllib.request.urlopen("http://www.homefinance.nl/english/international-interest-rates/libor/libor-interest-rates-gbp.asp")
    return html_file

class tmpHTMLParser(HTMLParser):

    def __init__(self):
        self._libor = "0.81625 %"
        self._stack = []
        self._properStack = []
        super().__init__()

    def handle_starttag(self, tag, attrs):
        print("starttag " + str(tag))
        print(self.get_starttag_text())
        self._stack.append(tag)

    def handle_startendtag(self, tag, attrs):
        print("startendtag")

    def unknown_decl(self, data):
        print("unknown_decl")

    def handle_endtag(self, tag):
        print("endtag " + str(tag))
        self._stack.pop()

def _buildProperStack(webpage):
    """dev tool: return the stack leading to the libor rate libor into the webpage webpage."""
    parser = tmpHTMLParser()
    parser.feed(webpage)

if __name__ == "__main__":
    webpage = downloadLIBOR()
    print("download done")
    html = str(webpage.read())
    _buildProperStack(html)
    exit(0)

error handling data extraction web scraping urllib html parsing information retrieval htmlparser meta tags

2 个回答

我不太清楚你具体想做什么，但用BeautifulSoup来解析HTML会更简单、更好用，而且出错的可能性也更小。

回答于 2025-04-16 由 Python大师

分享举报

顺便提一下，我注意到你在 parser.feed() 之后忘记调用 parser.close() 了。这样可能会导致一些数据没有被处理完，而调用 close() 可以强制它完成这些操作。

回答于 2025-04-16 由 Python大师

分享举报

HTMLParser和奇怪的行为

2 个回答

撰写回答