当googlechrome通过Selenium加载web页面时,它可能会加载页面所需的其他文件,例如来自<img src="example.com/a.png">
或<script src="example.com/a.js">
标记。此外,CSS文件。在
如何获取浏览器加载页面时下载的所有URL的列表?(在编程上,在Python和chromedriver中使用Selenium) 也就是说,Chrome中开发者工具的“网络”选项卡中显示的文件列表(显示下载的文件列表)。在
使用Selenium、chromedriver的示例代码:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.binary_location = "/usr/bin/x-www-browser"
driver = webdriver.Chrome("./chromedriver", chrome_options=options)
# Load some page
driver.get("https://example.com")
# Now, how do I see a list of downloaded URLs that took place when loading the page above?
继续@GPT14在他的answer中的建议,我编写了一个小脚本,它完全实现了我想要的,并打印了某个页面加载的url列表。在
这使用BrowserMob代理。非常感谢@GPT14建议使用它,它非常适合我们的目的。我修改了他的答案,并将其修改为googlechrome webdriver而不是Firefox。我还扩展了该脚本,以便它遍历HAR-JSON输出并列出所有请求url。记住根据您的需要调整以下选项。在
您可能想看看BrowserMob代理。它可以捕获web应用程序的性能数据(通过HAR格式),还可以操纵浏览器行为和流量,例如白名单和黑名单内容,模拟网络流量和延迟,以及重写HTTP请求和响应。在
取自readthedocs,用法简单,与selenium webdriver api集成良好。您可以阅读有关BMPhere的更多信息。在
相关问题 更多 >
编程相关推荐