Python Web抓取HTTP 400

2024-05-15 15:00:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用Python(使用Scrapy框架)进行web抓取。scrape成功地工作,直到它进入进程大约一个小时,然后每个请求都返回一个HTTP400错误代码。在

这仅仅是一个基于IP的速率限制器或擦伤检测工具吗?关于我如何进一步调查根本原因有什么建议吗?在


Tags: ip框架web进程速率建议检测工具scrapy
2条回答

我认为请求率的问题。试试看download_delay。如果您能够在400错误之前请求更多页面,那么您可以调整下载延迟并获得完整的web内容。一些网站提供了下载延迟的信息机器人.txt文件

它可能是一个速率限制器。在

但是,400错误通常意味着客户端请求的格式不正确,因此被服务器拒绝。在

你应该先开始调查这件事。当您的请求开始失败时,请退出程序并立即重新启动它。如果它开始工作,你就知道你没有被速率限制,而且事实上你的请求在以后的形成方式上有问题。在

相关问题 更多 >