如何使用Scrapy

3 投票
2 回答
5737 浏览
提问于 2025-04-16 04:28

我想知道如何开始使用Scrapy来做爬虫。我通过apt-get install安装了这个工具,然后尝试运行一个示例:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

我从spiders/google_directory.py里修改了一些代码,但似乎没有执行,因为我插入的打印信息没有显示出来。我看过他们的文档,但没有找到相关的内容;你有什么想法吗?

另外,如果你觉得做网站爬虫应该使用其他工具,请告诉我。我对Python工具不太熟悉,而Python是必须的。

谢谢!

2 个回答

7

EveryBlock.com 发布了一些使用 lxml、urllib2 和 Django 这几个工具的高质量抓取代码。

Scraperwiki.com 是一个很有启发的网站,里面有很多 Python 抓取的例子。

这里有一个使用 cssselect 的简单示例:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]
7

你在爬虫命令中漏掉了蜘蛛的名字。请使用:

$ scrapy crawl directory.google.com

另外,我建议你把示例项目复制到你的个人目录,而不是在 /usr/share/doc/scrapy/examples/ 这个目录下工作,这样你可以随意修改和尝试:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

撰写回答