无法从Web获取文本

from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() wait = WebDriverWait(driver,10) driver.get("https://www.quora.com/topic/American-Football") while True: try: driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") wait.until(EC.invisibility_of_element_located((By.CSS_SELECTOR, ".LoadingDots"))) except Exception: break for item in wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".ui_qtext_rendered_qtext .ui_qtext_para"))): print(item.text) driver.quit()

2条回答

网友

1楼 · 编辑于 2024-06-16 11:50:06

您的脚本没有按预期工作，因为(By.CSS_SELECTOR, ".LoadingDots")选择器返回这个元素<div class="LoadingDots tiny">，而且它总是隐藏的，所以您对其不可见性的期望总是返回True，并且循环无法中断。在

您需要使用"LoadingDots"类名：<div class="LoadingDots regular">检查另一个元素，逻辑应该如下：

向下滚动页面
等待加载点出现（开始加载更多内容）
等待加载点消失（加载更多内容完成）

如果翻页后我们看不到点-打破循环

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
wait = WebDriverWait(driver, 5)
driver.get("https://www.quora.com/topic/American-Football")

while True:
    try:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, ".LoadingDots.regular")))
        wait.until(EC.invisibility_of_element_located((By.CSS_SELECTOR, ".LoadingDots.regular")))
    except Exception: continue
    else: break

for item in wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".ui_qtext_rendered_qtext .ui_qtext_para"))):
    print(item.text)

driver.quit()

但是！请注意，我发布这个脚本只是为了指出为什么你的脚本不能工作。。。如果内容加载太快（可能性很低，但是…）脚本可能无法捕捉到加载点出现的时刻，您将无法获得所需的所有内容。在

所以@Guy解决方案似乎更可靠（+1）

网友

2楼 · 编辑于 2024-06-16 11:50:06

当页面滚动到按钮时，类为.LoadingDots.regular的元素保持不变，但其父元素添加了新的类hidden。您可以检查是否使用get_attribute函数添加了该类。您也可以直接用类spinner_display_area找到它

while True:
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    loading_dots = driver.find_element_by_class_name('spinner_display_area')
    if 'hidden' in loading_dots.get_attribute('class'):
        break;

相关问题更多 >

编程相关推荐

热门问题

热门文章