使用beautifulsoup和Python从搜索页面提取HTML内容

1条回答

网友

1楼 · 发布于 2024-05-23 18:11:53

JavaScript正在加载后修改页面。因此，当您使用page.content时，它会在JS修改页面之前为您提供页面的HTML内容。在

您可以使用selenium来呈现JS内容。页面加载后，您可以使用driver.page_souce在JS修改页面源代码并将其传递给BeautifulSoup之后获取它。在

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait

def get_page(url):
    driver = webdriver.Chrome()
    driver.get(url)
    try:
        WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'h1')))
    except TimeoutException:
        print('Page timed out.')
        return None
    page = driver.page_source
    return page

def init_BeautifulSoup():
    global page, soup
    page = get_page('your-url')
    # handle the case where page may be None
    soup = BeautifulSoup(page, 'html.parser')

编辑：

你需要改变一件事。在

部件WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'h1')))的作用是让驱动程序显式地等待，直到元素位于我们指定的网页上，或者在您指定的延迟时间之后抛出TimeoutException（我用了10秒）。在

我刚刚给你举了一个例子。在执行JavaScript之前，您需要找出加载页面上不存在的元素，并在此处替换它：(By.TAG_NAME, 'h1')

检查页面中的元素是否存在，并检查该元素在页面中是否存在。在

您可以根据您的需求使用以下任意一种，而不是By.TAG_NAME，ID，NAME，CLASS_NAME，CSS_SELECTOR，XPATH。在

相关问题更多 >

编程相关推荐

热门问题

热门文章