无法从AWS lamb上的Scrapy获取结果

1条回答

网友

1楼 · 发布于 2024-05-15 16:14:05

我遇到了同样的问题，并通过为sqlite3创建空模块来解决它，如下面的答案所述：https://stackoverflow.com/a/44532317/5441099。表面上，Scrapy导入sqlite3，但并不一定使用它。Python3希望sqlite3位于主机上，但是AWS Lambda机器没有。错误消息并不总是显示在日志中。在

这意味着您可以通过切换到Python2或像我一样为sqlite3创建空模块来使其工作。在

我运行爬虫程序的入口文件如下所示，它在使用Python3.6的Lambda上运行：

# run_crawler.py
# crawl() is invoked from the handler function in Lambda
import os
from my_scraper.spiders.my_spider import MySpider
from scrapy.crawler import CrawlerProcess
# Start sqlite3 fix
import imp
import sys
sys.modules["sqlite"] = imp.new_module("sqlite")
sys.modules["sqlite3.dbapi2"] = imp.new_module("sqlite.dbapi2")
# End sqlite3 fix


def crawl():
    process = CrawlerProcess(dict(
        FEED_FORMAT='json',
        FEED_URI='s3://my-bucket/my_scraper_feed/' +
        '%(name)s-%(time)s.json',
        AWS_ACCESS_KEY_ID=os.getenv('AWS_ACCESS_KEY_ID'),
        AWS_SECRET_ACCESS_KEY=os.getenv('AWS_SECRET_ACCESS_KEY'),
    ))
    process.crawl(MySpider)
    process.start()  # the script will block here until all crawling jobs are finished


if __name__ == '__main__':
    crawl()

相关问题更多 >

编程相关推荐

热门问题

热门文章

无法从AWS lamb上的Scrapy获取结果

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >