从网站多个链接中抓取数据

-1 投票

1 回答

1924 浏览

提问于 2025-04-17 18:21

我想用scraperwiki和python来制作一个抓取工具，这个工具可以从不同的网站上抓取大量信息。我在想，是否可以只指向一个网址，然后从这个网站里的每个链接中抓取数据。

举个例子：一个网站上会有关于不同项目的信息，每个项目都有自己的链接。我不需要这些链接的列表，只想要链接里面实际包含的数据。

这个抓取工具会在每个链接中寻找相同的属性。

有没有人知道我该怎么做或者是否可以这样做？

谢谢！

属性匹配数据解析信息提取数据抓取网页爬虫链接遍历

1 个回答

看看用urllib2配合BeautifulSoup的用法。

一个（非常）简单的链接抓取器示例大概是这样的：

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

然后只需写一个循环，把这个过程重复多次就可以了！

回答于 2025-04-17 由 Python大师

分享举报