网站阻止Selenium访问内容

url = 'https://www.continente.pt/' options = webdriver.ChromeOptions() options.add_argument("start-maximized") options.add_argument("disable-infobars") options.add_argument("--disable-extensions") driver = webdriver.Chrome(chrome_options=options, executable_path=r'D:\doc\Fiverr\newMercado\chromedriver.exe') driver.get(url)

2条回答

网友

1楼 · 编辑于 2024-06-16 12:24:12

网站对爬行器有不同的规则，主要通过域的robots.txt文件进行总结。看穿https://www.continente.pt/robots.txt，以下是输出：

User-agent: *
Disallow: */private
Disallow: */search

这可能意味着网站所有者不希望任何人对他们刮目相看。根据您的脚本和网站的不同，它们还可能阻止对spider的访问。您还可以使用不同的Web驱动程序进行检查，可能是Firefox

您还可以检查您的IP地址是否被阻止。如果是这种情况，请尝试重置具有动态IP地址的路由器，或者找到一个可与脚本一起使用的旋转IP提供商

网友

2楼 · 编辑于 2024-06-16 12:24:12

我通过卸载所有基于chrome的浏览器和所有组件找到了答案。然后我安装了Opera（带有86个Chrome）并下载了ChromeDriver 86。在那之后，我获得了访问权限，但还没有被阻止（已经尝试了10次访问该站点，仍然没有问题地连接）

我没有添加任何新代码，只是：

from selenium import webdriver


url = "https://www.website.com"

driver = webdriver.Chrome()


driver.get(url)

相关问题更多 >

编程相关推荐

热门问题

热门文章