Selenium 获取网页源代码

0 投票

2 回答

1363 浏览

提问于 2025-04-15 17:11

我正在尝试使用Selenium抓取一个Verizon无线手机的页面，地址如下：

http://www.verizonwireless.com/b2c/store/controller?item=phoneFirst&action=viewPhoneOverviewByDevice&deviceType=Phones&sortOption=priceSort&lid=//global//phones+and+accessories//cell+phones

我打开了这个页面，并使用get_html_source来保存页面，没遇到什么问题。但是当我去查看我保存的页面时，所有关于手机的数据都不见了。我搞不清楚为什么没有保存整个页面。

提前感谢你的帮助！

备注：这是用Python完成的。

自动化测试数据提取网页抓取网络爬虫网页源代码动态内容 selenium 浏览器驱动

2 个回答

与其直接在屏幕上打印出来，不如先把内容放到一个字符串里，然后再存到记事本文件中。因为屏幕的缓存大小是有限的，有时候它不能显示所有的页面源代码内容。

回答于 2025-04-15 由 Python大师

分享举报

我访问了你提供的链接。我手动查看了页面源代码，也用了一些工具，但从源代码里什么都找不到。

要记住，有时候（可能大多数情况下）你在HTML页面上看到的数据并不能通过源代码获取；因为现在很多网页设计师常常使用AJAX技术，这样源代码里几乎什么都没有，比如这个页面就充满了JQuery和JS方法。

这是我用的代码，或许在其他情况下能帮到你：

from selenium import webdriver
browser = webdriver.Firefox()

url = "http://www.verizonwireless.com/b2c/store/controller?&item=phoneFirst&action=viewPhoneOverviewByDevice&deviceType=Phones&sortOption=priceSort&lid=//global//phones+and+accessories//cell+phones"

browser.get(url)
html_source = browser.page_source
print html_source

回答于 2025-04-15 由 Python大师

分享举报

Selenium 获取网页源代码

2 个回答

撰写回答