如何在Python中使用beanstalkc来队列URL并执行任务
我有一个叫做 spider
的函数,它需要一个叫 seed
的参数。这个 seed
就是我传给这个爬虫函数的URL名称。现在我想知道,怎么在Python中使用beanstalkc来排队这些URL并执行相关的任务。
1 个回答
1
根据这个教程,你需要做以下几件事:
- 确保beanstalkd服务器正在运行。
连接到服务器:
import beanstalkc beanstalk = beanstalkc.Connection(host='localhost', port=14711)
添加任务的方法:
beanstalk.put('seed url')
获取任务的方法:
job = beanstalk.reserve() spider(job.body)
将任务标记为完成的方法:
job.delete()