用Python分发web爬虫

1条回答

网友

1楼 · 发布于 2024-06-07 05:38:22

一种可能是使用外部任务队列。有很多选择，Celery是一个流行的。基本思想是将作业推送到队列中，在队列中，任意数量的工作进程都可以使用它们。对于一个网络爬虫来说，一个作业可以像一个要抓取的URL一样简单。工作人员将从队列中获取一个URL，检索它，解析它，并将任何新URL作为新作业添加到队列中。你知道吗

这个系统的优点是工人只是进程，可以通过网络与队列通信，因此您可以在任意多的机器上拥有任意多的工人。你知道吗

编程相关推荐

java计时器结束得太早？
java通过行选择编辑jtable内容
java如何将数组的值传递给另一个类？
java对象。hashCode（）算法
代号为1且lambda不工作的java Android本机代码
泛型Java方法签名中是否真的需要“？扩展”？
异常处理声纳问题“main”不应“抛出”任何JAVA 7
java无法使用MVEL导入静态方法
java什么是类路径容器？
java从InputStream解码字节

相关问题更多 >

编程相关推荐

热门问题

热门文章

用Python分发web爬虫

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >