如何使用Beautiful Soup和Python获取favicon

9 投票

5 回答

9779 浏览

提问于 2025-04-16 09:52

我写了一些傻乎乎的代码来学习，但它在任何网站上都不管用。这里是代码：

import urllib2, re
from BeautifulSoup import BeautifulSoup as Soup

class Founder:
    def Find_all_links(self, url):
        page_source = urllib2.urlopen(url)
        a = page_source.read()
        soup = Soup(a)

        a = soup.findAll(href=re.compile(r'/.a\w+'))
        return a
    def Find_shortcut_icon (self, url):
        a = self.Find_all_links(url)
        b = ''
        for i in a:
            strre=re.compile('shortcut icon', re.IGNORECASE)
            m=strre.search(str(i))
            if m:
                b = i["href"]
        return b
    def Save_icon(self, url):
        url = self.Find_shortcut_icon(url)
        print url
        host = re.search(r'[0-9a-zA-Z]{1,20}\.[a-zA-Z]{2,4}', url).group()
        opener = urllib2.build_opener()
        icon = opener.open(url).read()
        file = open(host+'.ico', "wb")
        file.write(icon)
        file.close()
        print '%s icon successfully saved' % host
c = Founder()
print c.Save_icon('http://lala.ru')

最奇怪的是，它在以下网站上能正常工作：

http://habrahabr.ru http://5pd.ru

但是在我检查过的大多数其他网站上都不行。

data extraction web scraping web development beautiful soup html parsing favicon website analysis

5 个回答

如果有人想用正则表达式做一个简单的检查，下面这个方法对我有效：

import re

from bs4 import BeautifulSoup

html_code = "<Some HTML code you get from somewhere>"

soup = BeautifulSoup(html_code, features="lxml")

for item in soup.find_all('link', attrs={'rel': re.compile("^(shortcut icon|icon)$", re.I)}):
    print(item.get('href'))

这个方法还会考虑到大小写的情况。

回答于 2025-04-16 由 Python大师

分享举报

Thomas K的回答让我找到了正确的方向，但我发现有些网站并没有使用rel="shortcut icon"，比如1800contacts.com只用了rel="icon"。这个在Python 3中也能正常工作，并且会返回链接。如果你想的话，可以把这个链接写入文件。

from bs4 import BeautifulSoup
import requests

def getFavicon(domain):
    if 'http' not in domain:
        domain = 'http://' + domain
    page = requests.get(domain)
    soup = BeautifulSoup(page.text, features="lxml")
    icon_link = soup.find("link", rel="shortcut icon")
    if icon_link is None:
        icon_link = soup.find("link", rel="icon")
    if icon_link is None:
        return domain + '/favicon.ico'
    return icon_link["href"]

回答于 2025-04-16 由 Python大师

分享举报

你把事情搞得太复杂了，其实可以简单处理。这里有个简单的方法：

import urllib
page = urllib.urlopen("http://5pd.ru/")
soup = BeautifulSoup(page)
icon_link = soup.find("link", rel="shortcut icon")
icon = urllib.urlopen(icon_link['href'])
with open("test.ico", "wb") as f:
    f.write(icon.read())

回答于 2025-04-16 由 Python大师

分享举报

如何使用Beautiful Soup和Python获取favicon

5 个回答

撰写回答