我们如何导航到一个网页，刮取数据，移动到下一页，然后再做一次？问题的回答

我们如何导航到一个网页，刮取数据，移动到下一页，然后再做一次？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我做了两次尝试，让我的代码导航到一个网页，将数据从一个表导入到一个数据框，然后移动到下一个页面，再次执行同样的操作。下面是我测试的一些示例代码。现在我被卡住了；我不知道怎么继续 <pre><code># first attempt import requests from bs4 import BeautifulSoup import pandas as pd from selenium import webdriver from time import sleep lst = [] url = "https://www.nasdaq.com/market-activity/stocks/screener" for numb in (1, 10): url = "https://www.nasdaq.com/market-activity/stocks/screener" r = requests.get(url) html = r.text soup = BeautifulSoup(html, "html.parser") table = soup.find_all('table') df = pd.DataFrame(table) lst.append(df) def get_cpf(): driver = webdriver.Chrome("C:/Utility/chromedriver.exe") driver.get(url) driver.find_element_by_class('pagination__page" data-page="'' + numb + ''').click() sleep(10) text=driver.find_element_by_id('texto_cpf').text print(text) get_cpf() get_cpf.click ### second attempt #import BeautifulSoup from bs4 import BeautifulSoup import pandas as pd import requests from selenium import webdriver from time import sleep lst = [] for numb in (1, 10): r=requests.get('https://www.nasdaq.com/market-activity/stocks/screener') data = r.text soup = BeautifulSoup(data, "html.parser") table = soup.find( "table", {"class":"nasdaq-screener__table"} ) for row in table.findAll("tr"): for cell in row("td"): data = cell.get_text().strip() df = pd.DataFrame(data) lst.append(df) def get_cpf(): driver = webdriver.Chrome("C:/Utility/chromedriver.exe") driver.get(url) driver.find_element_by_class('pagination__page" data-page="'' + numb + ''').click() sleep(10) text=driver.find_element_by_id('texto_cpf').text print(text) get_cpf() get_cpf.click ### third attempt from bs4 import BeautifulSoup from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium import webdriver import time import requests import pandas as pd lst = [] url="https://www.nasdaq.com/market-activity/stocks/screener" driver = webdriver.Chrome("C:/Utility/chromedriver.exe") wait = WebDriverWait(driver, 10) driver.get(url) wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#_evh-ric-c"))).click() for pages in range(1,9): try: print(pages) r = requests.get(url) html = r.text soup = BeautifulSoup(html, "html.parser") table = soup.find_all('table') df = pd.DataFrame(table) lst.append(df) wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"button.pagination__next"))).click() time.sleep(1) except: break </code></pre> 这是一个屏幕截图的HTML背后的表，我正试图刮 <a href="https://i.stack.imgur.com/SGduc.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/SGduc.png" alt="enter image description here"/></a> <a href="https://i.stack.imgur.com/RxCUC.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/RxCUC.png" alt="enter image description here"/></a> 因此，在第一页中，我想从以下内容中删除所有内容： <pre><code>AAPL Apple Inc. Common Stock $127.79 6.53 5.385% 2,215,538,678,600 </code></pre> 致： <pre><code>ASML ASML Holding N.V. New York Registry Shares $583.55 16.46 2.903% 243,056,764,541 </code></pre> 然后，移到第2页，做同样的事情，移到第3页，做同样的事情，等等，等等。我不确定仅使用BeautifulSoup是否可行。或者我需要Selenium，用于按钮单击事件。我愿意做这里最简单的事。谢谢

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我们如何导航到一个网页，刮取数据，移动到下一页，然后再做一次？

1 个回答

相关Python问题