“HTTP Error 403:request disallowed by”在哪一边机器人.txt'生成的?

2024-05-12 21:25:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试机械化使一些例行程序更简单。我通过使用br.set_handle_robots(False)成功地绕过了这个错误。有人说使用它有多道德。我想知道的是,这个错误是在哪里生成的,在我这边,还是在服务器端?我的意思是Mechanize在看到某个robots.txt规则时抛出异常,还是当服务器检测到我使用自动化工具时拒绝请求?在


Tags: 工具br服务器txtfalse规则错误服务器端
2条回答

服务器用这样的响应阻止您的活动。在

是你的网站吗?如果没有,请遵循以下规则:

  1. 服从robots.txt文件
  2. 在请求之间放置一个延迟,即使robots.txt不需要它。在
  3. 在用户代理标头中提供一些联系信息(电子邮件或页面URL)。在

否则,请准备好网站所有者根据用户代理、IP或其他他认为将您与合法用户区分开来的信息来阻止您。在

服务器检测用户代理。如果用户代理匹配机器人.txt,规则由客户端应用。 默认情况下,mechanize返回“pythonurllib/2.7”。在

http://en.wikipedia.org/wiki/Robots_exclusion_standard

相关问题 更多 >