使用Python在族搜索记录中搜索数据

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from bs4 import BeautifulSoup import pandas as pd from getpass import getpass username = input("Enter Username: " ) password = input("Enter Password: ") chrome_path= r"C:\Users...chromedriver_win32\chromedriver.exe" driver= webdriver.Chrome(chrome_path) driver.get("https://www.familysearch.org/search/record/results?q.birthLikeDate.from=1996&q.birthLikeDate.to=1996&f.collectionId=...") usernamet = driver.find_element_by_id("userName") usernamet.send_keys(username) passwordt = driver.find_element_by_id("password") passwordt.send_keys(password) login = driver.find_element_by_id("login") login.submit() driver.get("https://www.familysearch.org/search/record/results?q.birthLikeDate.from=1996&q.birthLikeDate.to=1996&f.collectionId=.....") WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "name"))) #for tag in driver.find_elements_by_class_name("name"): # print(tag.get_attribute('innerHTML')) for tag in soup.find_all("sr-cell-name"): print(tag["name"])

2条回答

网友

1楼 · 编辑于 2024-06-15 00:30:04

我希望做一些非常类似的事情，并且有半体面的python/selenium抓取经验。长话短说，FamilySearch（我相信还有许多其他网站）使用了某种涉及影子主机的技术（我不是JS或网络爱好者）。标签基本上对BS或Selenium不可见

解决方案：pyshadow https://github.com/sukgu/pyshadow

您还可能发现此链接很有帮助： How to handle elements inside Shadow DOM from Selenium

我现在已经能够成功地找到以前找不到的元素，但仍然没有找到我想要得到的东西。祝你好运

网友

2楼 · 编辑于 2024-06-15 00:30:04

尝试访问sr-cell-name标记

Selenium：

for tag in driver.find_elements_by_tag_name("sr-cell-name"):
    print(tag.get_attribute("name"))

BeautifulSoup：

for tag in soup.find_all("sr-cell-name"):
    print(tag["name"])

编辑：在解析元素之前，可能需要等待元素完全出现在页面上。可以使用^{}方法执行此操作：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


driver = webdriver.Chrome()
driver.get("...")

WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "name")))

for tag in driver.find_elements_by_class_name("name"):
    print(tag.get_attribute('innerHTML'))

相关问题更多 >

编程相关推荐

热门问题

热门文章