使用Python爬取网站
对于我的第一个爬虫程序,我计划做以下几件事:
- 使用Selenium打开这个网址:http://www.google.com/
- 收集所有相关的链接
- 在结果页面上,列出所有的http链接,并把它们存储在一个csv文件里。
- 回到第二步,但点击下一个链接
我该如何开始呢?(我用的是Python 2.6.6)。
3 个回答
0
你有没有想过联系一下Cars.com的人,如果你只是想获取数据的话?他们可能能提供给你一个数据源或者API接口,前提是你最终的目标是获取数据,而不是单纯地开发一个爬虫程序。
4
你可以看看这个叫做 BeautifulSoup 的库,它可以很简单地帮你在网页上找到链接。而且在StackOverflow上已经有很多相关的例子了。