通过Python加载网站内容

1 投票
2 回答
4627 浏览
提问于 2025-04-16 14:25

我想知道怎么用Python从一个网站上加载特定的内容。比如说,我想把一个博客上的一些帖子加载过来,然后在我自己的网站上显示出来。我该怎么做呢?

2 个回答

2

urlliburllib2 可以帮助你加载网页的原始HTML内容。像BeautifulSoup和lxml这样的HTML解析器可以让你分析这些原始HTML,这样你就能找到你关心的部分。还有一些模板引擎,比如Mako、Cheetah等,可以帮助你生成HTML,这样你就可以制作出可以展示的网页。

4

一个回答:

import urllib2
from BeautifulSoup import BeautifulSoup

def fetchtags(req, name, attrs, num):
        try:
            website = urllib2.urlopen(req)
        except urllib2.HTTPError, e:
            print 'A problem occured. Please try again.'
            return
        soup = BeautifulSoup(website,
                             convertEntities=BeautifulSoup.HTML_ENTITIES)
        tags = soup.findAll(name=name,
                            attrs=attrs,
                            limit=num)
        return tags

然后你可以这样使用它:

fetchtags('http://www.website.com', 'div', {'class':'c'}, 10)

要从指定的网址获取10个类名为c的div...

想了解更多关于返回对象的信息,可以查看Beautiful Soup的相关内容。

撰写回答