从网站多个链接中抓取数据

-1 投票
1 回答
1924 浏览
提问于 2025-04-17 18:21

我想用scraperwiki和python来制作一个抓取工具,这个工具可以从不同的网站上抓取大量信息。我在想,是否可以只指向一个网址,然后从这个网站里的每个链接中抓取数据。

举个例子:一个网站上会有关于不同项目的信息,每个项目都有自己的链接。我不需要这些链接的列表,只想要链接里面实际包含的数据。

这个抓取工具会在每个链接中寻找相同的属性。

有没有人知道我该怎么做或者是否可以这样做?

谢谢!

1 个回答

1

看看用urllib2配合BeautifulSoup的用法。

http://www.crummy.com/software/BeautifulSoup/

一个(非常)简单的链接抓取器示例大概是这样的:

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

然后只需写一个循环,把这个过程重复多次就可以了!

撰写回答