如何使用BeautifulSoup解析此HTML？

import requests from bs4 import BeautifulSoup url = "https://acharts.co/canada_singles_top_100/2021/05" headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "en,de;q=0.9,en-US;q=0.8,fr-FR;q=0.7,fr;q=0.6,es;q=0.5", "authority": "acharts.co", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 YaBrowser/17.6.1.749 Yowser/2.5 Safari/537.36" } response = requests.get(url, headers=headers) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') for item in soup.select("td"): if item['class'][0] == 'cPrinciple': song = item.a.span.get_text() print(song)

<td class="cPrinciple" itemprop="item" itemscope itemtype="http://schema.org/MusicRecording"> <a href="https://acharts.co/song/156580" itemprop="url">Mood</a> <meta itemprop="url" content="https://acharts.co/artist/24kgoldn" /> 24Kgoldn and <meta itemprop="url" content="https://acharts.co/artist/iann_dior" /> Iann Dior

2条回答

网友

1楼 · 编辑于 2024-04-25 07:52:17

更简洁的方式（使用列表理解）：

import requests as rq
from bs4 import BeautifulSoup as bs

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 YaBrowser/17.6.1.749 Yowser/2.5 Safari/537.36"}
url = "https://acharts.co/canada_singles_top_100/2021/05"
resp = rq.get(url, headers=headers)
soup = bs(resp.content)

tbody = soup.find_all("tbody")[0]

rows = [[span.text for span in row.find_all("span", attrs={"itemprop": True}) if not "\n" in span.text] for row in tbody.find_all("tr")]

网友

2楼 · 编辑于 2024-04-25 07:52:17

你可以这样做：

soup = BeautifulSoup(response.text, 'html.parser')
for item in soup.select("td"):
    if item['class'][0] == 'cPrinciple':
        e = item.find("span", { "class" : "Sub" })
        if e is not None:
            results= e.find_all("span",{"itemprop":"name"})
            artists = [x.text for x in results]
        song = item.a.span.get_text()
        print(artists)
        print(song)

相关问题更多 >

编程相关推荐

热门问题

热门文章