网站阻止Selenium访问内容

2024-06-16 12:24:12 发布

您现在位置:Python中文网/ 问答频道 /正文

晚安。 我正在尝试访问https://www.continente.pt/,我得到的只是一个顶部有一个黑色条的空白页。 我已经在使用这些选项:

url = 'https://www.continente.pt/'
options = webdriver.ChromeOptions()
options.add_argument("start-maximized")
options.add_argument("disable-infobars")
options.add_argument("--disable-extensions")
driver = webdriver.Chrome(chrome_options=options, executable_path=r'D:\doc\Fiverr\newMercado\chromedriver.exe')
driver.get(url)

不工作,我仍然阻止加载内容

Blocked Continente.pt


Tags: httpsaddpturlwww选项driverargument
2条回答

网站对爬行器有不同的规则,主要通过域的robots.txt文件进行总结。看穿https://www.continente.pt/robots.txt,以下是输出:

User-agent: *
Disallow: */private
Disallow: */search

这可能意味着网站所有者不希望任何人对他们刮目相看。根据您的脚本和网站的不同,它们还可能阻止对spider的访问。您还可以使用不同的Web驱动程序进行检查,可能是Firefox

您还可以检查您的IP地址是否被阻止。如果是这种情况,请尝试重置具有动态IP地址的路由器,或者找到一个可与脚本一起使用的旋转IP提供商

我通过卸载所有基于chrome的浏览器和所有组件找到了答案。 然后我安装了Opera(带有86个Chrome)并下载了ChromeDriver 86。 在那之后,我获得了访问权限,但还没有被阻止(已经尝试了10次访问该站点,仍然没有问题地连接)

我没有添加任何新代码,只是:

from selenium import webdriver


url = "https://www.website.com"

driver = webdriver.Chrome()


driver.get(url)

相关问题 更多 >