使用谷歌云功能时，可使用scrapy进行ReactorNotRestartable

2条回答

网友

1楼 · 编辑于 2024-04-19 19:47:26

您可以简单地按顺序爬行蜘蛛

main.py

from scrapy.crawler import CrawlerProcess
def run_single_crawl(data, context):
    process = CrawlerProcess()

    process.crawl(MySpider1)
    process.crawl(MySpider2)
    process.start()

网友

2楼 · 编辑于 2024-04-19 19:47:26

默认情况下，scrapy的异步特性不能很好地与云函数配合使用，因为我们需要一种阻止爬网的方法，以防止函数提前返回，并在进程终止之前杀死实例

相反，我们可以使用^{}以阻塞方式运行现有的spider：

requirements.txt：

scrapydo

main.py：

import scrapy
import scrapydo

scrapydo.setup()


class MyItem(scrapy.Item):
    url = scrapy.Field()


class MySpider(scrapy.Spider):
    name = "example.com"
    allowed_domains = ["example.com"]
    start_urls = ["http://example.com/"]

    def parse(self, response):
        yield MyItem(url=response.url)


def run_single_crawl(data, context):
    results = scrapydo.run_spider(MySpider)

这还显示了一个简单的示例，说明如何从爬行器中生成一个或多个scrapy.Item，并从爬网中收集结果，如果不使用scrapydo，这也是一个挑战

另外：确保您的项目已启用计费功能。默认情况下，云函数不能发出出站请求，爬虫程序将成功，但不会返回任何结果

main.py

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用谷歌云功能时，可使用scrapy进行ReactorNotRestartable

main.py

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >