如何在Python中从selenium webdriver获取所有请求

2024-04-30 00:34:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试构建一个自动化工具来验证web分析标签的实现。我使用python3+Selenium和PhantomJS来自动浏览并收集正在触发的标记。 我使用下面的代码来抓取网页,并得到所有请求的har日志,类似于googlechrome中的network标签。问题是,对于一些网站来说,它是完美的,我可以看到谷歌-analytics.com/collect?电话。对于其他人,我可以在googlechrome网络标签上看到,但我的爬虫不会注册它。我确信我正在等待页面加载,但它仍然不起作用。在

我在哪里找到分析/收集的示例页面?调用har日志: https://www.stackoverflow.com

我找不到分析/收集页面的例子?调用har日志,但在chrome网络选项卡上找到它。 https://www.nike.com.br

实例化webdriver的代码

def get_driver():
  desired_capabilities = DesiredCapabilities.PHANTOMJS.copy()
  service_args = ['--ignore-ssl-errors=yes']
  desired_capabilities['phantomjs.page.customHeaders.User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
  driver = webdriver.PhantomJS(service_args=service_args,
                               desired_capabilities=desired_capabilities)
  driver.set_page_load_timeout(60)
  return driver

解析har日志的代码

^{pr2}$

Tags: 代码https网络comwwwdriverserviceargs