通过Python加载网站内容
我想知道怎么用Python从一个网站上加载特定的内容。比如说,我想把一个博客上的一些帖子加载过来,然后在我自己的网站上显示出来。我该怎么做呢?
2 个回答
2
urllib
和 urllib2
可以帮助你加载网页的原始HTML内容。像BeautifulSoup和lxml这样的HTML解析器可以让你分析这些原始HTML,这样你就能找到你关心的部分。还有一些模板引擎,比如Mako、Cheetah等,可以帮助你生成HTML,这样你就可以制作出可以展示的网页。
4
一个回答:
import urllib2
from BeautifulSoup import BeautifulSoup
def fetchtags(req, name, attrs, num):
try:
website = urllib2.urlopen(req)
except urllib2.HTTPError, e:
print 'A problem occured. Please try again.'
return
soup = BeautifulSoup(website,
convertEntities=BeautifulSoup.HTML_ENTITIES)
tags = soup.findAll(name=name,
attrs=attrs,
limit=num)
return tags
然后你可以这样使用它:
fetchtags('http://www.website.com', 'div', {'class':'c'}, 10)
要从指定的网址获取10个类名为c的div...
想了解更多关于返回对象的信息,可以查看Beautiful Soup的相关内容。