如何使用BeautifulSoup从类中只提取一个元素？

from bs4 import BeautifulSoup import numpy as np import pandas as pd from time import sleep import requests import re import json page = requests.get("https://www.gofundme.com/f/eric-stevens-care-trust") soup = BeautifulSoup(page.text, 'lxml') Amount_raised = soup.find_all('h2', class_='m-progress-meter-heading')[0].get_text()

3条回答

网友

1楼 · 编辑于 2024-04-25 20:54:40

你可以处理你得到的文本

Amount_raised.split(" ")[0]

完整代码：

from bs4 import BeautifulSoup
import requests

page = requests.get("https://www.gofundme.com/f/eric-stevens-care-trust")
soup = BeautifulSoup(page.text, 'lxml')

Amount_raised = soup.find_all('h2', class_='m-progress-meter-heading')[0].get_text()
print(Amount_raised.split(" ")[0])

您还可以跳过.get_text()，然后您可以从<h2>中查找并删除标记<span>（使用.extrude()），接下来您可以使用.get_text()从<h2>中获取文本

item = soup.find_all('h2', class_='m-progress-meter-heading')[0]
item.find('span').extrude()
Amount_raised = item.get_text()

完整代码：

from bs4 import BeautifulSoup
import requests

page = requests.get("https://www.gofundme.com/f/eric-stevens-care-trust")
soup = BeautifulSoup(page.text, 'lxml')

item = soup.find_all('h2', class_='m-progress-meter-heading')[0]
item.find('span').extract()
Amount_raised = item.get_text()
print(Amount_raised)

您还可以在<h2>中获取包含所有strings的列表，然后来自<span>的文本将作为列表上的分隔元素

item = soup.find_all('h2', class_='m-progress-meter-heading')[0]
print( list(item.strings)[0] )

完整代码：

from bs4 import BeautifulSoup
import requests

page = requests.get("https://www.gofundme.com/f/eric-stevens-care-trust")
soup = BeautifulSoup(page.text, 'lxml')

item = soup.find_all('h2', class_='m-progress-meter-heading')[0]
print(list(item.strings)[0])

编辑：其他示例：

item = soup.find_all('h2', class_='m-progress-meter-heading')[0]

print( item.next )
print( list(item.children)[0] )

网友

2楼 · 编辑于 2024-04-25 20:54:40

我发现最简单的方法是：

Amount_raised = soup.find_all('h2', class_='m-progress-meter-heading')
print(Amount_raised[0].contents[0])

印刷品882521美元

在此处找到解决方案：Only extracting text from this element, not its children

网友

3楼 · 编辑于 2024-04-25 20:54:40

如果您想获得目标和实际筹集的金额，请尝试：

amts = Amount_raised.split(' ')
locs = [i for i, x in enumerate(amts) if  "$" in x]
print('Amount raised: $'+amts[locs[0]-1])
print('Goal : $'+amts[locs[1]-1])

输出：

Amount raised: $882,521
Goal : $1,000,000

相关问题更多 >

编程相关推荐

热门问题

热门文章