如何避免机器人检测？

2024-04-19 00:53:46 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在使用python+mechanize，试图抓取一个站点。如果我使用链接访问此站点，则会出现登录页面的纯文本版本。这就是我想用刮刀看到的。所以：

import mechanize

USER_AGENT = "Links (2.3pre1; Linux 2.6.32-5-xen-amd64 x86_64; 80x24)"
mech = mechanize.Browser(factory=mechanize.RobustFactory())
mech.addheaders = [('User-agent', USER_AGENT)]
mech.set_handle_robots(False)

resp = mech.open(URLS['start'])
fnout("001-login.html", resp.read())
resp.close()

fnout只是将字符串转储到文件中。然而，当我打开001-login.html时，整个页面都是单词“Robot”。没别的了。在

我没有提出任何其他要求。这不是说我加载了页面&没有加载图像，或者其他什么。这是我提出的第一个请求，我将用户代理与站点所使用的链接版本完全相同。我做错了什么（除了试图去刮一个不想被刮的网站之外）？在

Tags：文本 import 版本站点链接 html login 页面

1条回答

网友

1楼 · 发布于 2024-04-19 00:53:46

很可能links正在发送的其他头文件没有Mechanize，反之亦然。同时使用links和Mechanize找到http://www.reliply.org/tools/requestheaders.php，然后查看发送了哪些头。在

如何避免机器人检测？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何避免机器人检测？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >