PYTHON SCRAPY无法将信息发布到表单，

from scrapy.selector import HtmlXPathSelector from scrapy.http import FormRequest, Request from delta.items import DeltaItem from scrapy.contrib.spiders import CrawlSpider, Rule class DmozSpider(CrawlSpider): name = "delta" allowed_domains = ["http://www.delta.com"] start_urls = ["http://www.delta.com"] def start_requests(self, response): yield FormRequest.from_response(response, formname='flightSearchForm',url="http://www.delta.com/booking/findFlights.do", formdata={'departureCity[0]':'JFK', 'destinationCity[0]':'SFO','departureDate[0]':'07.20.2013','departureDate[1]':'07.28.2013','paxCount':'1'},callback=self.parse1) def parse1(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//') items = [] for site in sites: item = DeltaItem() item['title'] = site.select('text()').extract() item['link'] = site.select('text()').extract() item['desc'] = site.select('text()').extract() items.append(item) return items

scrapy crawl delta -o items.xml -t xml 2013-07-01 13:39:30+0300 [scrapy] INFO: Scrapy 0.16.2 started (bot: delta) 2013-07-01 13:39:30+0300 [scrapy] DEBUG: Enabled extensions: FeedExporter, LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 2013-07-01 13:39:30+0300 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats 2013-07-01 13:39:30+0300 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 2013-07-01 13:39:30+0300 [scrapy] DEBUG: Enabled item pipelines: 2013-07-01 13:39:30+0300 [delta] INFO: Spider opened 2013-07-01 13:39:30+0300 [delta] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2013-07-01 13:39:30+0300 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 2013-07-01 13:39:30+0300 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 2013-07-01 13:39:33+0300 [delta] DEBUG: Crawled (200) <GET http://www.delta.com> (referer: None) 2013-07-01 13:39:33+0300 [delta] INFO: Closing spider (finished) 2013-07-01 13:39:33+0300 [delta] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 219, 'downloader/request_count': 1, 'downloader/request_method_count/GET': 1, 'downloader/response_bytes': 27842, 'downloader/response_count': 1, 'downloader/response_status_count/200': 1, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2013, 7, 1, 10, 39, 33, 159235), 'log_count/DEBUG': 7, 'log_count/INFO': 4, 'response_received_count': 1, 'scheduler/dequeued': 1, 'scheduler/dequeued/memory': 1, 'scheduler/enqueued': 1, 'scheduler/enqueued/memory': 1, 'start_time': datetime.datetime(2013, 7, 1, 10, 39, 30, 734090)} 2013-07-01 13:39:33+0300 [delta] INFO: Spider closed (finished)

0条回答

网友

1楼 · 发布于 2024-04-27 23:33:17

下面是使用Request.from_response进行delta.com的工作示例：

from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spider import BaseSpider


class DeltaItem(Item):
    title = Field()
    link = Field()
    desc = Field()


class DmozSpider(BaseSpider):
    name = "delta"
    allowed_domains = ["delta.com"]
    start_urls = ["http://www.delta.com"]

    def parse(self, response):
        yield FormRequest.from_response(response,
                                        formname='flightSearchForm',
                                        formdata={'departureCity[0]': 'JFK',
                                                  'destinationCity[0]': 'SFO',
                                                  'departureDate[0]': '07.20.2013',
                                                  'departureDate[1]': '07.28.2013'},
                                        callback=self.parse1)

    def parse1(self, response):
        print response.status

您使用了错误的spider方法，另外allowed_domains设置不正确。

但是，无论如何，delta.com大量使用动态ajax调用来加载内容-这里是问题的开始。E、 g.responseinparse1方法不包含任何搜索结果-而是包含用于加载动态加载结果的AWAY WE GO. ARRIVING AT YOUR FLIGHTS SOON页的html。

基本上，您应该使用浏览器开发工具，并尝试在spider中模拟那些ajax调用，或者使用像selenium这样的工具来使用真正的浏览器（您可以将其与scrapy结合使用）。

另见：

希望能有所帮助。

相关问题更多 >

编程相关推荐

热门问题

热门文章