如何使用Scrapy

3 投票

2 回答

5737 浏览

提问于 2025-04-16 04:28

我想知道如何开始使用Scrapy来做爬虫。我通过apt-get install安装了这个工具，然后尝试运行一个示例：

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

我从spiders/google_directory.py里修改了一些代码，但似乎没有执行，因为我插入的打印信息没有显示出来。我看过他们的文档，但没有找到相关的内容；你有什么想法吗？

另外，如果你觉得做网站爬虫应该使用其他工具，请告诉我。我对Python工具不太熟悉，而Python是必须的。

谢谢！

开发工具代码调试网络爬虫数据抓取 scrapy 爬虫框架

2 个回答

EveryBlock.com 发布了一些使用 lxml、urllib2 和 Django 这几个工具的高质量抓取代码。

Scraperwiki.com 是一个很有启发的网站，里面有很多 Python 抓取的例子。

这里有一个使用 cssselect 的简单示例：

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]

回答于 2025-04-16 由 Python大师

分享举报

你在爬虫命令中漏掉了蜘蛛的名字。请使用：

$ scrapy crawl directory.google.com

另外，我建议你把示例项目复制到你的个人目录，而不是在 /usr/share/doc/scrapy/examples/ 这个目录下工作，这样你可以随意修改和尝试：

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

回答于 2025-04-16 由 Python大师

分享举报

如何使用Scrapy

2 个回答

撰写回答