使用Python爬取网站

0 投票
3 回答
1494 浏览
提问于 2025-04-17 09:52

对于我的第一个爬虫程序,我计划做以下几件事:

  1. 使用Selenium打开这个网址:http://www.google.com/
  2. 收集所有相关的链接
  3. 在结果页面上,列出所有的http链接,并把它们存储在一个csv文件里。
  4. 回到第二步,但点击下一个链接

我该如何开始呢?(我用的是Python 2.6.6)。

3 个回答

0

你有没有想过联系一下Cars.com的人,如果你只是想获取数据的话?他们可能能提供给你一个数据源或者API接口,前提是你最终的目标是获取数据,而不是单纯地开发一个爬虫程序。

1

在我看来,lxml 用起来简单多了,而且它的接口很符合 Python 的风格。你可以在这里找到一个详细解释的例子。

4

你可以看看这个叫做 BeautifulSoup 的库,它可以很简单地帮你在网页上找到链接。而且在StackOverflow上已经有很多相关的例子了。

撰写回答