访问被拒绝403当网页垃圾;怎么办?

2024-04-23 08:28:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在测试我建立的一个刮取算法。我向https://www2.hm.com/fi_fi/miesten.html发出了请求,但错误指定了用户代理信息。这似乎触发了一项即时禁令(不确定)删除他们的网站应该没问题-他们的robots.txt上写着:User agent:* 不允许:)

Example of making a request to HM and the subsequent server response

出于隐私考虑,我删除了用户代理和代理信息。然而,它们并不是什么不同寻常的事情

我收到以下答复:

“b'\n访问被拒绝\n\n

\n\n您没有访问权限”http://www2.hm.com/fi_fi/miesten.html“在此服务器上。

\n参考#18.2796ef50.1625728417.f9aab80\n\n”

所以我的问题是:我能做些什么来解除这项禁令?我能从另一端连接某人并要求将其抬起吗?如果是,通常在哪里可以找到这些信息。 虽然这个问题特别涉及这个网站,但这是一个更广泛的问题。在禁止的情况下,用户可以尝试从服务器连接某人吗?我曾想过联系客户支持,但我严重怀疑他们无法帮助解决这个问题,甚至不理解这是怎么回事

我在谷歌上搜索了这个问题,但没有找到任何帮助。他们通常建议清除缓存、内存等。这不是问题所在。我可以通过Chrome或其他浏览器访问该站点,但是当通过python使用请求时,就会出现这个问题


Tags: 用户https服务器com算法信息代理网站