在python3中从页面中提取链接

from html.parser import HTMLParser import urllib import urllib.request class myParser(HTMLParser): def handle_starttag(self, tag, attrs): if (tag == "a"): for a in attrs: if (a[0] == "href"): link = a[1] if (link.find('http') >= 1): print(link) newParser = myParser() newParser.feed(link) url = "http://www.asriran.com" req = urllib.request.Request(url) response = urllib.request.urlopen(req) handle = response.read() parser = myParser() print (handle) parser.feed(str(handle))

1条回答

网友

1楼 · 发布于 2024-05-16 17:50:50

由于以下两个原因，您的代码不打印任何内容：

不解码http响应，而是尝试解析字节而不是字符串
link.find('http') >= 1对于以http或https开头的链接永远不会为真。您应该改为使用link.find('http') == 0或link.startswith('http')

如果您想坚持使用HTMLParser，可以按如下方式修改代码：

from html.parser import HTMLParser
import urllib.request


class myParser(HTMLParser):

    links = []

    def handle_starttag(self, tag, attrs):
        if tag =='a':
            for attr in attrs:
                if attr[0]=='href' and str(attr[1]).startswith('http'):
                    print(attr[1])
                    self.links.append(attr[1])


with urllib.request.urlopen("http://www.asriran.com") as response:
    handle = response.read().decode('utf-8')
parser = myParser()
parser.feed(handle)

http_links = myParser.links

否则，我建议切换到Beautiful Soup并像这样解析响应：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章