CrawlerRunner（）未通过scrapy的管道文件

@csrf_exempt @require_http_methods(['POST', 'GET']) def scrape(request): import sys from newscrawler.spiders import news_spider from newscrawler.pipelines import NewscrawlerPipeline from scrapy import signals from twisted.internet import reactor from scrapy.crawler import Crawler,CrawlerRunner from scrapy.settings import Settings from scrapy.utils.project import get_project_settings from scrapy.utils.log import configure_logging from crochet import setup setup() configure_logging() runner= CrawlerRunner(get_project_settings()) d=runner.crawl(news_spider.NewsSpider) return redirect("../getnews/")

import scrapy from scrapy_djangoitem import DjangoItem import sys import os os.environ['DJANGO_SETTINGS_MODULE'] = 'News_Aggregator.settings' from news.models import Headline class NewscrawlerItem(DjangoItem): # define the fields for your item here like: django_model = Headline

1条回答

网友

1楼 · 发布于 2024-06-16 09:05:25

我发现CrawlerRunner无法访问我的scrapy项目的设置文件，该项目可以启用scrapy的pipelines.py，从而将数据保存在Django模型文件中。Django的views.py文件（调用spider）的修改代码为：

import os
import sys
from newscrawler.spiders import news_spider
from newscrawler.pipelines import NewscrawlerPipeline
from scrapy import signals
from twisted.internet import reactor
from scrapy.crawler import Crawler,CrawlerRunner
from scrapy.settings import Settings
from scrapy.utils.project import get_project_settings
from newscrawler import settings as my_settings 
from scrapy.utils.log import configure_logging
from crochet import setup

@csrf_exempt
@require_http_methods(['POST', 'GET'])
def scrape(request):
    Headline.objects.all().delete()
    crawler_settings = Settings()

    setup()
    configure_logging()
    crawler_settings.setmodule(my_settings)
    runner= CrawlerRunner(settings=crawler_settings)
    d=runner.crawl(news_spider.NewsSpider)
    time.sleep(8)
    return redirect("../getnews/")

希望这能帮助任何想从django views.py文件中调用scrapy spider并将这些数据保存到django模型中的人。谢谢

来自scrapy的项目文件

管道文件

相关问题更多 >

编程相关推荐

热门问题

热门文章