如何爬取403禁止的SNS
我正在用Python写的爬虫程序抓取一个社交网络服务(SNS)。
这个程序运行了很长时间,但几天前,我从服务器上抓取的网页出现了错误,显示“403 禁止访问”。
我尝试更换了cookie、浏览器和账号,但都没有成功。
而且似乎这些被禁止访问的服务器在同一个网络段里。
我该怎么办呢?要去偷别人的IP地址吗?= =...
非常感谢!
1 个回答
1
看起来你在这个网络段的路由器上被列入黑名单了,可能是因为你(或者这个网络段里的其他人)违反了使用条款、robots.txt文件、网站地图中规定的最大爬取频率,或者类似的原因。
解决这个问题不是技术上的,而是社交上的:你需要联系网站管理员,诚恳地道歉,弄清楚你(或者你的某个同事)到底做错了什么,真诚地承诺以后绝对不再犯,再次道歉,直到他们解除黑名单。如果你能给网站管理员一个理由,说明为什么他们应该让你继续访问这个网站(比如说,你的爬虫可以帮助他们的网站吸引更多流量,或者类似的理由),那就更好了!-)