斯帕奇没有

MacBook:spiders hadoop$ scrapy crawl craigs -o items.csv -t csv /System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/zope/__init__.py:1: UserWarning: Module pkg_resources was already imported from /System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/pkg_resources.pyc, but /Library/Python/2.6/site-packages is being added to sys.path__import__('pkg_resources').declare_namespace(__name__) /System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/zope/__init__.py:1: UserWarning: Module site was already imported from /System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/site.pyc, but /Library/Python/2.6/site-packages is being added to sys.path__import__('pkg_resources').declare_namespace(__name__) 2013-02-08 20:35:55+0530 [scrapy] INFO: Scrapy 0.16.4 started (bot: myspider) 2013-02-08 20:35:55+0530 [scrapy] DEBUG: Enabled extensions: FeedExporter, LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 2013-02-08 20:35:55+0530 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats 2013-02-08 20:35:55+0530 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 2013-02-08 20:35:55+0530 [scrapy] DEBUG: Enabled item pipelines: 2013-02-08 20:35:55+0530 [craigs] INFO: Spider opened 2013-02-08 20:35:55+0530 [craigs] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2013-02-08 20:35:55+0530 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 2013-02-08 20:35:55+0530 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 2013-02-08 20:35:58+0530 [craigs] DEBUG: Crawled (200) <GET http://sfbay.craigslist.org/npo/> (referer: None) 2013-02-08 20:35:58+0530 [craigs] INFO: Closing spider (finished) 2013-02-08 20:35:58+0530 [craigs] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 230, 'downloader/request_count': 1, 'downloader/request_method_count/GET': 1, 'downloader/response_bytes': 7291, 'downloader/response_count': 1, 'downloader/response_status_count/200': 1, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2013, 2, 8, 15, 5, 58, 415553), 'log_count/DEBUG': 7, 'log_count/INFO': 4, 'response_received_count': 1, 'scheduler/dequeued': 1, 'scheduler/dequeued/memory': 1, 'scheduler/enqueued': 1, 'scheduler/enqueued/memory': 1, 'start_time': datetime.datetime(2013, 2, 8, 15, 5, 55, 343482)} 2013-02-08 20:35:58+0530 [craigs] INFO: Spider closed (finished)

2条回答

网友

1楼 · 编辑于 2024-04-19 19:28:25

按照payala的建议修改你的SgmlLinkExtractor
删除链接提取器的restrict_xpaths部分

这些更改将解决所遇到的问题。我还将对用于选择标题的xpath提出以下建议，因为这将删除由于选择下一页链接而出现的空项。在

def parse_items(self, response):
    hxs = HtmlXPathSelector(response)
    titles = hxs.select("//p[@class='row']")

网友

2楼 · 编辑于 2024-04-19 19:28:25

尝试用".*00\.html"或"index\d+00\.html"替换SgmlLinkExtractor "d00\.html"

相关问题更多 >

编程相关推荐

热门问题

热门文章