“HTTP Error 403:request disallowed by”在哪一边机器人.txt'生成的？ - 问答 - Python中文网

“HTTP Error 403:request disallowed by”在哪一边机器人.txt'生成的？

2024-05-12 21:25:21 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试机械化使一些例行程序更简单。我通过使用br.set_handle_robots(False)成功地绕过了这个错误。有人说使用它有多道德。我想知道的是，这个错误是在哪里生成的，在我这边，还是在服务器端？我的意思是Mechanize在看到某个robots.txt规则时抛出异常，还是当服务器检测到我使用自动化工具时拒绝请求？在

Tags：工具 br 服务器 txt false 规则错误服务器端

2条回答

网友

1楼 · 编辑于 2024-05-12 21:25:21

服务器用这样的响应阻止您的活动。在

是你的网站吗？如果没有，请遵循以下规则：

服从robots.txt文件
在请求之间放置一个延迟，即使robots.txt不需要它。在
在用户代理标头中提供一些联系信息（电子邮件或页面URL）。在

否则，请准备好网站所有者根据用户代理、IP或其他他认为将您与合法用户区分开来的信息来阻止您。在

网友

2楼 · 编辑于 2024-05-12 21:25:21

服务器检测用户代理。如果用户代理匹配机器人.txt，规则由客户端应用。默认情况下，mechanize返回“pythonurllib/2.7”。在

见http://en.wikipedia.org/wiki/Robots_exclusion_standard

相关问题更多 >

编程相关推荐

热门问题

热门文章