2024-05-15 15:00:14 发布
网友
我正在用Python(使用Scrapy框架)进行web抓取。scrape成功地工作,直到它进入进程大约一个小时,然后每个请求都返回一个HTTP400错误代码。在
这仅仅是一个基于IP的速率限制器或擦伤检测工具吗?关于我如何进一步调查根本原因有什么建议吗?在
我认为请求率的问题。试试看download_delay。如果您能够在400错误之前请求更多页面,那么您可以调整下载延迟并获得完整的web内容。一些网站提供了下载延迟的信息机器人.txt文件
它可能是一个速率限制器。在
但是,400错误通常意味着客户端请求的格式不正确,因此被服务器拒绝。在
你应该先开始调查这件事。当您的请求开始失败时,请退出程序并立即重新启动它。如果它开始工作,你就知道你没有被速率限制,而且事实上你的请求在以后的形成方式上有问题。在
我认为请求率的问题。试试看download_delay。如果您能够在400错误之前请求更多页面,那么您可以调整下载延迟并获得完整的web内容。一些网站提供了下载延迟的信息机器人.txt文件
它可能是一个速率限制器。在
但是,400错误通常意味着客户端请求的格式不正确,因此被服务器拒绝。在
你应该先开始调查这件事。当您的请求开始失败时,请退出程序并立即重新启动它。如果它开始工作,你就知道你没有被速率限制,而且事实上你的请求在以后的形成方式上有问题。在
相关问题 更多 >
编程相关推荐