无法从网站获取标题，同时点击下一页按钮

import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC link = "https://stackoverflow.com/questions/tagged/web-scraping" def get_links(url): driver.get(url) while True: items = [item.get_attribute("href") for item in wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR,".summary .question-hyperlink")))] yield from get_info(items) try: elem = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR,".pager > a[rel='next']"))) driver.execute_script("arguments[0].scrollIntoView();",elem) elem.click() time.sleep(2) except Exception: break def get_info(links): for link in links: driver.get(link) name = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "a.question-hyperlink"))).text yield name if __name__ == '__main__': driver = webdriver.Chrome() wait = WebDriverWait(driver,10) for item in get_links(link): print(item)

1条回答

网友

1楼 · 发布于 2024-04-26 00:50:59

之所以没有“下一步”按钮，是因为遍历循环末尾的每个内部链接时，它找不到“下一步”按钮。你知道吗

你需要采取下面的每一个步骤并执行。你知道吗

urlnext = 'https://stackoverflow.com/questions/tagged/web-scraping?tab=newest&page={}&pagesize=30'.format(pageno) #where page will start from 2

试试下面的代码。你知道吗

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

link = "https://stackoverflow.com/questions/tagged/web-scraping"

def get_links(url):
    urlnext = 'https://stackoverflow.com/questions/tagged/web-scraping?tab=newest&page={}&pagesize=30'
    npage = 2
    driver.get(url)
    while True:
        items = [item.get_attribute("href") for item in wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR,".summary .question-hyperlink")))]
        yield from get_info(items)
        driver.get(urlnext.format(npage))
        try:
            elem = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR,".pager > a[rel='next']")))
            npage=npage+1
            time.sleep(2)
        except Exception:

            break

def get_info(links):
    for link in links:
        driver.get(link)
        name = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "a.question-hyperlink"))).text
        yield name

if __name__ == '__main__':
    driver = webdriver.Chrome()
    wait = WebDriverWait(driver,10)

    for item in get_links(link):
        print(item)

相关问题更多 >

编程相关推荐

热门问题

热门文章