Python3 Beautifulsoup：获取带有特定文本的span标记值，该文本也随机放置在html树中

<div class="sk-expander-content" style="display: block;"> <ul> <li> <span>Third Party Liability</span> <span>€756.62</span> </li> <li> <span>Fire & Theft</span> <span>€15.59</span> </li> </ul> </div>

html = driver.page_source soup = BeautifulSoup(html, "html.parser") div_i_need = soup.find_all("div", class_="sk-expander-content")[1] def price_scraper(text_to_find): for el in div_i_need.find_all(['ul', 'li', 'span']): if el.name == 'span': if el[0].text == text_to_find: return(el[1].text)

2条回答

网友

1楼 · 编辑于 2024-05-15 02:06:36

from bs4 import BeautifulSoup
import re

html = """
<div class="sk-expander-content" style="display: block;">

<ul>
  <li>
    <span>Third Party Liability</span>
    <span>€756.62</span>
  </li>

  <li>
  <span>Fire &amp; Theft</span>
  <span>€15.59</span>
  </li>

</ul>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

target = soup.select("div.sk-expander-content")

for tar in target:
    data = [item.text for item in tar.findAll("span", text=re.compile("€"))]
    print(data)

输出：

['€756.62', '€15.59']

Note: I used select which return ResultSet in order to find all div.

网友

2楼 · 编辑于 2024-05-15 02:06:36

使用正则表达式

import re

html='''<div class="sk-expander-content" style="display: block;">

<ul>
  <li>
    <span>Third Party Liability</span>
    <span>€756.62</span>
  </li>

  <li>
  <span>Fire &amp; Theft</span>
  <span>€15.59</span>
  </li>

</ul>
</div>
<div class="sk-expander-content" style="display: block;">

<ul>
  <li>
    <span>Fire &amp; Theft</span>
    <span>€756.62</span>
  </li>

  <li>
  <span>Third Party Liability</span> 
  <span>€15.59</span>
  </li>

</ul>
</div>'''

soup = BeautifulSoup(html, "html.parser")

for item in soup.find_all(class_="sk-expander-content"):

    for span in item.find_all('span',text=re.compile("€(\d+).(\d+)")):
        print(span.find_previous_sibling('span').text)
        print(span.text)

输出：

Third Party Liability
€756.62
Fire & Theft
€15.59
Fire & Theft
€756.62
Third Party Liability
€15.59

更新：如果要获取第一个节点值，请使用find()而不是find_all()

import re

html='''<div class="sk-expander-content" style="display: block;">

<ul>
  <li>
    <span>Third Party Liability</span>
    <span>€756.62</span>
  </li>

  <li>
  <span>Fire &amp; Theft</span>
  <span>€15.59</span>
  </li>

</ul>
</div>
<div class="sk-expander-content" style="display: block;">

<ul>
  <li>
    <span>Fire &amp; Theft</span>
    <span>€756.62</span>
  </li>

  <li>
  <span>Third Party Liability</span> 
  <span>€15.59</span>
  </li>

</ul>
</div>'''

soup = BeautifulSoup(html, "html.parser")

for span in soup.find(class_="sk-expander-content").find_all('span',text=re.compile("€(\d+).(\d+)")):
    print(span.find_previous_sibling('span').text)
    print(span.text)

相关问题更多 >

编程相关推荐

热门问题

热门文章