递归遍历多个网页并使用selenium抓取数据

1 投票

2 回答

2225 浏览

数据工程师

提问于 2025-04-18 01:29

这是我关于抓取网页的后续问题。

我之前的问题是：如何在网页抓取中准确找到HTML内容的位置，使用urllib2和Beautiful Soup

这次的问题是关于做同样的事情，但需要在多个页面或视图上递归进行。

这是我的代码：

from selenium.webdriver.firefox import web driver

driver = webdriver.WebDriver()
driver.get('http://www.walmart.com/ip/29701960?page=seeAllReviews')

for review in driver.find_elements_by_class_name('BVRRReviewDisplayStyle3Main'):

    title = review.find_element_by_class_name('BVRRReviewTitle').text
    rating =review.find_element_by_xpath('.//div[@class="BVRRRatingNormalImage"]//img').get_attribute('title')
print title, rating

从网址上看，如果我们点击第二页，内容没有变化，否则就不会成问题了。在这种情况下，下一页的点击是通过服务器调用的JavaScript实现的。有没有办法通过对我提供的代码稍作修改，仍然使用Python的Selenium进行抓取呢？如果有的话，请告诉我。

谢谢。

javascript 自动化测试网页抓取 html解析递归遍历数据抓取 selenium 多页面抓取

2 个回答

只需在每一页阅读完后点击下一步：

from selenium.webdriver.firefox import webdriver

driver = webdriver.WebDriver()
driver.get('http://www.walmart.com/ip/29701960?page=seeAllReviews')

while True:
    for review in driver.find_elements_by_class_name('BVRRReviewDisplayStyle3Main'):
        title  = review.find_element_by_class_name('BVRRReviewTitle').text
        rating = review.find_element_by_xpath('.//div[@class="BVRRRatingNormalImage"]//img').get_attribute('title')
        print title,rating
    try:
        driver.find_element_by_link_text('Next').click()
    except:
        break

driver.quit()

或者，如果你想限制阅读的页数：

from selenium.webdriver.firefox import webdriver

driver = webdriver.WebDriver()
driver.get('http://www.walmart.com/ip/29701960?page=seeAllReviews')

maxNumOfPages = 10; # for example
for pageId in range(2,maxNumOfPages+2):
    for review in driver.find_elements_by_class_name('BVRRReviewDisplayStyle3Main'):
        title  = review.find_element_by_class_name('BVRRReviewTitle').text
        rating = review.find_element_by_xpath('.//div[@class="BVRRRatingNormalImage"]//img').get_attribute('title')
        print title,rating
    try:
        driver.find_element_by_link_text(str(pageId)).click()
    except:
        break

driver.quit()

回答于 2025-04-18 由 Python大师

分享举报

我觉得这个方法应该可以用。虽然Python代码可能有点问题，但这应该能给你一个起点：

continue = True
while continue:
    try:
        for review in driver.find_elements_by_class_name('BVRRReviewDisplayStyle3Main'):
            title = review.find_element_by_class_name('BVRRReviewTitle').text
            rating =review.find_element_by_xpath('.//div[@class="BVRRRatingNormalImage"]//img').get_attribute('title')
        print title, rating
        driver.find_element_by_name('BV_TrackingTag_Review_Display_NextPage').click()
    except:
        print "Done!"
        continue = False

回答于 2025-04-18 由 Python大师

分享举报

递归遍历多个网页并使用selenium抓取数据

2 个回答

撰写回答