如何以编程方式检测站点是否禁止屏幕抓取?

2024-04-24 18:58:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我编写了一个小程序,可以找到网页上的所有链接并将它们转储到一个列表中,然后循环浏览该列表,打开每个链接并收集这些网页上的所有链接。它有n层深。你知道吗

我用漂亮的汤擦屏幕。我遇到的一个问题是,有些页面不允许截屏和程序崩溃。我编写了一段代码,通过查找页面的标题标签是否显示“拒绝访问”,来检测站点是否不允许进行刮取。具有此功能的网站使用CloudFare阻止屏幕刮屏。你知道吗

>     links = []
>     for link in links:
>             if not nltk.clean_html(str(connect_to_webpage(link).find_all('title')))[2:15]
> == 'Access denied': #check link title tag to see if site says 'Access Denied'
>                 links.append(link)

显然,并不是所有人都使用云计算,所以有一些情况下,它没有赶上和程序崩溃。有没有一个通用的条件,我可以添加,将捕捉所有的屏幕刮刀阻塞的实例?最好的办法是什么?谢谢。你知道吗


Tags: to代码程序网页标题列表ifaccess