我一直在尝试用Selenium清理这个页面(https://www.riachuelo.com.br/feminino/colecao-feminino),但我无法访问html,因为它从未加载。我尝试过使用随机用户代理和其他浏览器,但问题仍然存在。你知道为什么会这样吗
代码如下:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from fake_useragent import UserAgent
URL = "https://www.riachuelo.com.br/feminino/colecao-feminino"
options = Options()
ua = UserAgent()
userAgent = ua.random
options.add_argument(f'user-agent={userAgent}')
driver = webdriver.Chrome(chrome_options=options,executable_path=r"C:\Program Files (x86)\chromedriver.exe")
driver.get(URL)
我使用Selenium在https://www.riachuelo.com.br/feminino/colecao-feminino处执行您的用例以加载网页,如下所示:
同样,根据您的观察,我遇到了网页从未加载的相同障碍:
分析
在检查网页的DOM Tree时,您会发现一些
<iframe>
,<script>
标记引用了关键字dist。例如:src="https://dtbot.directtalk.com.br/1.0/staticbot/dist/js/../index.html#!/?token=c243ce95-db6c-4ab6-9f2b-bf60d69c2d3d&widget=true&top=40&text=Alguma%20d%C3%BAvida%3F&textcolor=ffffff&bgcolor=4E1D3A&from=bottomRigth"
<script id="dtbot-script" src="https://dtbot.directtalk.com.br/1.0/staticbot/dist/js/dtbot.js?token=c243ce95-db6c-4ab6-9f2b-bf60d69c2d3d&widget=true&top=40&text=Alguma%20d%C3%BAvida%3F&textcolor=ffffff&bgcolor=4E1D3A&from=bottomRigth"></script>
这清楚地表明网站受到机器人管理服务提供商Distil Networks的保护,并且ChromeDriver的导航被检测到,随后被阻止
蒸馏
根据第There Really Is Something About Distil.it...条:
此外
参考文献
您可以在以下内容中找到一些详细的讨论:
相关问题 更多 >
编程相关推荐