BeautifulSoup：如何获取标记值和文本？以及如何遍历URL列表？

driver = webdriver.Chrome(chrome_driver_path) driver.implicitly_wait(300) driver.maximize_window() driver.get(url) driver.implicitly_wait(30) content=driver.page_source soup=BeautifulSoup(content,'html.parser') contact_text=soup.findAll("div",{"id":"renderContacInfo"}) output1='' output2='' print(contact_text) time.sleep(100) for tx in contact_text: time.sleep(100) output1+=tx.find(text="Email").findNext('h5').text output2+=tx.find(text="Contact").findNext('h5').text

2条回答

网友

1楼 · 编辑于 2024-06-16 09:09:44

正如@QHarr建议的，使用外部循环作为url。使用正则表达式re搜索文本

import re
listOfURLs=['https://oooo.com/Number=xxxxx', 'https://oooo.com/Number/yyyyyy', 'https://oooo.com/Number/zzzzzz']

for url in listOfURLs:
    driver = webdriver.Chrome(chrome_driver_path)
    driver.maximize_window()
    driver.get(url)
    driver.implicitly_wait(30)
    content = driver.page_source
    soup = BeautifulSoup(content, 'html.parser')
    print(url)
    print(soup.find('h6',text=re.compile("Contact")).find_next('h5').text)
    print(soup.find('h6',text=re.compile("Email")).find_next('h5').text)

网友

2楼 · 编辑于 2024-06-16 09:09:44

像这样的东西应该可以。我删除了所有的隐式等待（顺便说一句，如果你想走这条路线，你应该在你的脚本顶部设置一次，当你恢复你的driver；而且它们很长！）

listOfURLs=['https://oooo.com/Number=xxxxx', 'https://oooo.com/Number/yyyyyy', 'https://oooo.com/Number/zzzzzz']
result=[]
for url in listOfURLs:
    driver.get(url)
    content = driver.page_source
    soup = BeautifulSoup(content, 'html.parser')
    contact_text = soup.findAll("div", {"id": "renderContacInfo"})

    for tx in contact_text:
        output1=tx.find(text="Contact").findNext('h5').text
        output2=tx.find(text="Email").findNext('h5').text
        output=f"{url} {output1} {output2}"
        result.append(output)

driver.quit()

result是一个列表，以url+联系人+电子邮件的形式包含所有收集的输出

相关问题更多 >

编程相关推荐

热门问题

热门文章