如何在Python中使用beanstalkc来队列URL并执行任务

1 投票
1 回答
2273 浏览
提问于 2025-04-16 20:21

我有一个叫做 spider 的函数,它需要一个叫 seed 的参数。这个 seed 就是我传给这个爬虫函数的URL名称。现在我想知道,怎么在Python中使用beanstalkc来排队这些URL并执行相关的任务。

1 个回答

1

根据这个教程,你需要做以下几件事:

  1. 确保beanstalkd服务器正在运行。
  2. 连接到服务器:

    import beanstalkc
    beanstalk = beanstalkc.Connection(host='localhost', port=14711)
    
  3. 添加任务的方法:

    beanstalk.put('seed url')
    
  4. 获取任务的方法:

    job = beanstalk.reserve()
    spider(job.body)
    
  5. 将任务标记为完成的方法:

    job.delete()
    

撰写回答