从网站多个链接中抓取数据
我想用scraperwiki和python来制作一个抓取工具,这个工具可以从不同的网站上抓取大量信息。我在想,是否可以只指向一个网址,然后从这个网站里的每个链接中抓取数据。
举个例子:一个网站上会有关于不同项目的信息,每个项目都有自己的链接。我不需要这些链接的列表,只想要链接里面实际包含的数据。
这个抓取工具会在每个链接中寻找相同的属性。
有没有人知道我该怎么做或者是否可以这样做?
谢谢!
1 个回答
1
看看用urllib2配合BeautifulSoup的用法。
http://www.crummy.com/software/BeautifulSoup/
一个(非常)简单的链接抓取器示例大概是这样的:
from bs4 import BeautifulSoup
import urllib2
c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):
然后只需写一个循环,把这个过程重复多次就可以了!