如何在Scrapy（Python）中实现并发中间件

Question

编辑 2

第二种方法。目前，我放弃了使用多个实例，并把scrapy的设置调整为不使用并发请求。虽然这样速度慢，但比较稳定。我已经悬赏了。谁能帮我让这个程序能够并发运行？如果我把scrapy设置为并发运行，就会出现段错误。

class WebkitDownloader( object ):

    def __init__(self):
        os.environ["DISPLAY"] = ":99"
        self.proxyAddress = "a:b@" + PROXY_DEFAULT_HOST + ":" + str(PROXY_DEFAULT_PORT)


    def process_response(self, request, response, spider):
        self.request = request
        self.response = response
        if 'cached' not in response.flags:
            webkitBrowser = webkit.WebkitBrowser(proxy = self.proxyAddress, gui=False, timeout=0.5, delay=0.5, forbidden_extensions=['js','css','swf','pdf','doc','xls','ods','odt'])
            #print "added to queue: " + str(self.counter)
            webkitBrowser.get(html=response.body, num_retries=0)
            html = webkitBrowser.current_html()
            respcls = responsetypes.from_args(headers=response.headers, url=response.url)
            kwargs = dict(cls=respcls, body=killgremlins(html))
            response = response.replace(**kwargs)
            webkitBrowser.setPage(None)
            del webkitBrowser
        return response

编辑：

在此期间，我尝试自己回答这个问题，实施了一个队列，但出于某种原因，它并没有异步运行。基本上，当webkitBrowser.get(html=response.body, num_retries=0)在忙的时候，scrapy就会被阻塞，直到这个方法完成。新的请求不会被分配给self.queue中剩余的空闲实例。

有没有人能给我指个方向，让这个程序正常运行？

class WebkitDownloader( object ):

    def __init__(self):
        proxyAddress = "http://" + PROXY_DEFAULT_HOST + ":" + str(PROXY_DEFAULT_PORT)
        self.queue = list()
        for i in range(8):
            self.queue.append(webkit.WebkitBrowser(proxy = proxyAddress, gui=True, timeout=0.5, delay=5.5, forbidden_extensions=['js','css','swf','pdf','doc','xls','ods','odt']))

    def process_response(self, request, response, spider):

        i = 0
        for webkitBrowser in self.queue:
            i += 1
            if webkitBrowser.status == "WAITING":
                break
        webkitBrowser = self.queue[i]

        if webkitBrowser.status == "WAITING":
            # load webpage
            print "added to queue: " + str(i)
            webkitBrowser.get(html=response.body, num_retries=0)
            webkitBrowser.scrapyResponse = response

        while webkitBrowser.status == "PROCESSING":
            print "waiting for queue: " + str(i)  

        if webkitBrowser.status == "DONE":
            print "fetched from queue: " + str(i)
            #response = webkitBrowser.scrapyResponse
            html = webkitBrowser.current_html()
            respcls = responsetypes.from_args(headers=response.headers, url=response.url)
            kwargs = dict(cls=respcls, body=killgremlins(html))
            #response = response.replace(**kwargs)
            webkitBrowser.status = "WAITING"
            return response

我在scrapy的中间件中使用WebKit来渲染JavaScript。目前，scrapy被配置为一次处理1个请求（没有并发）。

我想使用并发（比如一次处理8个请求），但我需要确保8个WebkitBrowser()实例根据它们各自的处理状态接收请求（在WebkitBrowser.get()完成并准备好接收下一个请求时，立刻发送一个新的请求）。

我该如何用Python实现这个功能？这是我当前的中间件：

class WebkitDownloader( object ):

    def __init__(self):
        proxyAddress = "http://" + PROXY_DEFAULT_HOST + ":" + str(PROXY_DEFAULT_PORT)
        self.w = webkit.WebkitBrowser(proxy = proxyAddress, gui=True, timeout=0.5, delay=0.5, forbidden_extensions=['js','css','swf','pdf','doc','xls','ods','odt'])

    def process_response(self, request, response, spider):
        if not ".pdf" in response.url:
            # load webpage
            self.w.get(html=response.body, num_retries=0)
            html = self.w.current_html()
            respcls = responsetypes.from_args(headers=response.headers, url=response.url)
            kwargs = dict(cls=respcls, body=killgremlins(html))
            response = response.replace(**kwargs)

        return response

错误处理异步编程网络爬虫中间件 scrapy 并发处理请求队列 JavaScript 渲染

如何在Scrapy（Python）中实现并发中间件

2 个回答

撰写回答