scrapy中连续请求之间的巨大不必要延迟

2024-06-16 10:06:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我觉得刮痧是不是给我在每秒钟的链接方面的良好表现。为了调试,我将scrapy配置为在中通过squid代理发送请求,并记录通过代理传递的所有请求。你知道吗

从我的分析可以清楚地看出,scrapy甚至没有利用20%的吞吐量。 我们为每个域提供了8个并发请求,下面是我们构建的请求利用率图

enter image description here

上面的每个棕色框都是不同的HTTP请求。 我们有8行,因为每个域有8个并发请求。你知道吗

如您所见,两组连续的并发请求之间存在巨大的延迟。你知道吗

我给了下载延迟0,仍然是原来的故事。你知道吗

好心的建议我可以节流,使scrapy利用其所有吞吐量下载

在收到HTML之后,我还进行了任何处理。我也在使用内存队列。你知道吗


Tags: http利用代理链接html记录利用率吞吐量