对从Python脚本中运行Scrapy感到困惑

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from items import DmozItem class DmozSpider(BaseSpider): name = "douban" allowed_domains = ["example.com"] start_urls = [ "http://www.example.com/group/xxx/discussion" ] def parse(self, response): hxs = HtmlXPathSelector(response) rows = hxs.select("//table[@class='olt']/tr/td[@class='title']/a") items = [] # print sites for row in rows: item = DmozItem() item["title"] = row.select('text()').extract()[0] item["link"] = row.select('@href').extract()[0] items.append(item) return items

from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings from scrapy import log, signals from spiders.dmoz_spider import DmozSpider from scrapy.xlib.pydispatch import dispatcher def stop_reactor(): reactor.stop() dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = DmozSpider(domain='www.douban.com') crawler = Crawler(Settings()) crawler.configure() crawler.crawl(spider) crawler.start() log.start() log.msg("------------>Running reactor") result = reactor.run() print result log.msg("------------>Running stoped")

3条回答

网友

1楼 · 编辑于 2024-05-29 04:51:15

我在问自己同样的问题时发现了你的问题，那就是：“我怎样才能得到结果？”。因为这里没有答案，所以我自己努力寻找答案，现在我有了答案，我可以分享：

items = []
def add_item(item):
    items.append(item)
dispatcher.connect(add_item, signal=signals.item_passed)

或者对于scrapy 0.22（http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script），将我的解决方案的最后一行替换为：

crawler.signals.connect(add_item, signals.item_passed)

我的解决方案是根据http://www.tryolabs.com/Blog/2011/09/27/calling-scrapy-python-script/自由改编的。

网友

2楼 · 编辑于 2024-05-29 04:51:15

在我的例子中，我将脚本文件放在scrapy项目级别，例如如果scrapy project/scrapyproject/spider，那么我将它放在scrapyproject/my script.py

网友

3楼 · 编辑于 2024-05-29 04:51:15

终端打印结果，因为默认日志级别设置为DEBUG。

从脚本运行spider并调用log.start()时，默认日志级别设置为INFO。

只需替换：

log.start()

与

log.start(loglevel=log.DEBUG)

升级版：

要获得字符串形式的结果，可以将所有内容记录到一个文件中，然后从中读取，例如：

log.start(logfile="results.log", loglevel=log.DEBUG, crawler=crawler, logstdout=False)

reactor.run()

with open("results.log", "r") as f:
    result = f.read()
print result

希望能有所帮助。

相关问题更多 >

编程相关推荐

热门问题

热门文章