Selenium 获取网页源代码
我正在尝试使用Selenium抓取一个Verizon无线手机的页面,地址如下:
我打开了这个页面,并使用get_html_source
来保存页面,没遇到什么问题。但是当我去查看我保存的页面时,所有关于手机的数据都不见了。我搞不清楚为什么没有保存整个页面。
提前感谢你的帮助!
备注:这是用Python完成的。
2 个回答
0
与其直接在屏幕上打印出来,不如先把内容放到一个字符串里,然后再存到记事本文件中。因为屏幕的缓存大小是有限的,有时候它不能显示所有的页面源代码内容。
0
我访问了你提供的链接。我手动查看了页面源代码,也用了一些工具,但从源代码里什么都找不到。
要记住,有时候(可能大多数情况下)你在HTML页面上看到的数据并不能通过源代码获取;因为现在很多网页设计师常常使用AJAX技术,这样源代码里几乎什么都没有,比如这个页面就充满了JQuery和JS方法。
这是我用的代码,或许在其他情况下能帮到你:
from selenium import webdriver
browser = webdriver.Firefox()
url = "http://www.verizonwireless.com/b2c/store/controller?&item=phoneFirst&action=viewPhoneOverviewByDevice&deviceType=Phones&sortOption=priceSort&lid=//global//phones+and+accessories//cell+phones"
browser.get(url)
html_source = browser.page_source
print html_source