Django Heroku APScheduler Scrapy

1 投票
1 回答
960 浏览
提问于 2025-04-18 14:28

我在Heroku上运行了一个基本的Django网页应用。现在我想添加一个爬虫,去抓取一些网站上的数据(比如用Scrapy这个工具),并且希望这个爬虫能定时运行(例如通过APScheduler),把抓到的数据放到Django数据库中的表里。

有没有人知道相关的文档或者示例,能帮助我实现这种整合?我觉得这实在太难了。

1 个回答

2

我之前没有用过Scrapy,不过我正在使用APScheduler,它非常简单好用。所以我首先的想法是可以在你的Django应用里使用一个BackgroundScheduler,然后给它添加一个任务,这个任务会定期执行一个叫做“spider”的可调用函数。

关键在于,怎么把Scrapy项目嵌入到你的Django应用中,这样你就可以访问它的一个“spider”,并有效地把它当作你定时任务中的可调用函数来使用。

我可能帮不了太多,但我只是想给你一些启发和方向。如果你仔细阅读Scrapy的文档,我相信你会找到解决办法的。

祝好。

撰写回答