我怎样才能加快爬行速度?

2024-04-27 02:41:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我刮一个网站,我有一个大小100K+的记录。 目前脚本正在以每分钟9页的速度爬行。 是不是花了太多时间?如何加快这一进程?你知道吗


Tags: 脚本进程网站记录时间速度
1条回答
网友
1楼 · 发布于 2024-04-27 02:41:14

有几件事你可以试试看他们是否适合你:

  • 如果您使用的是自动油门(启用自动油门),请尝试禁用它并降低设置中的下载延迟变量。但这样做会有被禁止的危险。你知道吗
  • 当AUTOTHROTTLE\u ENABLED设置为True时,您可以使用DOWNLOAD\u DELAY(最小延迟时间)和AUTOTHROTTLE\u MAX\u DELAY(最大延迟时间)。你知道吗
  • 您可以更改的另一个变量是并发\u请求(以及每个IP的并发\u请求和每个域的并发\u请求)。在这里输入一个更高的值可能会加快爬行速度,但您再次面临被禁止的风险增加。你知道吗
  • 为请求使用代理,同时降低下载延迟并增加并发请求数,可以加快爬网速度,同时减少被禁止的风险。你可能会使你正在爬网的网站服务器过载。你知道吗
  • 一种更具伸缩性的方法是在多个服务器上分发请求。例如,您可以将网站的不同部分分配给不同的服务器,或者使用类似Scrapy Cluster(Scrapy Cluster documentation)的解决方案

相关问题 更多 >