Django Heroku APScheduler Scrapy
我在Heroku上运行了一个基本的Django网页应用。现在我想添加一个爬虫,去抓取一些网站上的数据(比如用Scrapy这个工具),并且希望这个爬虫能定时运行(例如通过APScheduler),把抓到的数据放到Django数据库中的表里。
有没有人知道相关的文档或者示例,能帮助我实现这种整合?我觉得这实在太难了。
1 个回答
2
我之前没有用过Scrapy,不过我正在使用APScheduler,它非常简单好用。所以我首先的想法是可以在你的Django应用里使用一个BackgroundScheduler,然后给它添加一个任务,这个任务会定期执行一个叫做“spider”的可调用函数。
关键在于,怎么把Scrapy项目嵌入到你的Django应用中,这样你就可以访问它的一个“spider”,并有效地把它当作你定时任务中的可调用函数来使用。
我可能帮不了太多,但我只是想给你一些启发和方向。如果你仔细阅读Scrapy的文档,我相信你会找到解决办法的。
祝好。