我正在测试我建立的一个刮取算法。我向https://www2.hm.com/fi_fi/miesten.html发出了请求,但错误指定了用户代理信息。这似乎触发了一项即时禁令(不确定)删除他们的网站应该没问题-他们的robots.txt上写着:User agent:* 不允许:)
Example of making a request to HM and the subsequent server response
出于隐私考虑,我删除了用户代理和代理信息。然而,它们并不是什么不同寻常的事情
我收到以下答复:
“b'\n访问被拒绝\n\n
\n\n您没有访问权限”http://www2.hm.com/fi_fi/miesten.html“在此服务器上。\n参考#18.2796ef50.1625728417.f9aab80\n\n”
所以我的问题是:我能做些什么来解除这项禁令?我能从另一端连接某人并要求将其抬起吗?如果是,通常在哪里可以找到这些信息。 虽然这个问题特别涉及这个网站,但这是一个更广泛的问题。在禁止的情况下,用户可以尝试从服务器连接某人吗?我曾想过联系客户支持,但我严重怀疑他们无法帮助解决这个问题,甚至不理解这是怎么回事
我在谷歌上搜索了这个问题,但没有找到任何帮助。他们通常建议清除缓存、内存等。这不是问题所在。我可以通过Chrome或其他浏览器访问该站点,但是当通过python使用请求时,就会出现这个问题
非常确定您需要使用Javascript抓取机器人,您可以尝试使用以下工具:https://docs.python-requests.org/projects/requests-html/en/latest/
要获取网站所有者的联系信息,可以使用unix whois命令:
whois hm.com
相关问题 更多 >
编程相关推荐