访问被拒绝403当网页垃圾；怎么办？

2024-04-23 08:28:36 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在测试我建立的一个刮取算法。我向https://www2.hm.com/fi_fi/miesten.html发出了请求，但错误指定了用户代理信息。这似乎触发了一项即时禁令（不确定）删除他们的网站应该没问题-他们的robots.txt上写着：User agent:* 不允许：）

出于隐私考虑，我删除了用户代理和代理信息。然而，它们并不是什么不同寻常的事情

我收到以下答复：

“b'\n访问被拒绝\n\n

\n\n您没有访问权限”http://www2.hm.com/fi_fi/miesten.html“在此服务器上。
\n参考#18.2796ef50.1625728417.f9aab80\n\n”
所以我的问题是：我能做些什么来解除这项禁令？我能从另一端连接某人并要求将其抬起吗？如果是，通常在哪里可以找到这些信息。虽然这个问题特别涉及这个网站，但这是一个更广泛的问题。在禁止的情况下，用户可以尝试从服务器连接某人吗？我曾想过联系客户支持，但我严重怀疑他们无法帮助解决这个问题，甚至不理解这是怎么回事
我在谷歌上搜索了这个问题，但没有找到任何帮助。他们通常建议清除缓存、内存等。这不是问题所在。我可以通过Chrome或其他浏览器访问该站点，但是当通过python使用请求时，就会出现这个问题

Tags：用户 https 服务器 com 算法信息代理网站

1条回答

网友

1楼 · 发布于 2024-04-23 08:28:36

非常确定您需要使用Javascript抓取机器人，您可以尝试使用以下工具：https://docs.python-requests.org/projects/requests-html/en/latest/

要获取网站所有者的联系信息，可以使用unix whois命令：

whois hm.com