靓汤有时还不怎么样

def scrape_song_lyrics(url): page = requests.get(url) html = BeautifulSoup(page.text, 'html.parser') lyrics = html.find('div', class_='lyrics').get_text() #remove identifiers like chorus, verse, etc lyrics = re.sub(r'[\(\[].*?[\)\]]', '', lyrics) #remove empty lines lyrics = os.linesep.join([s for s in lyrics.splitlines() if s]) return lyrics

2条回答

网友

1楼 · 编辑于 2024-06-06 04:30:44

在第3行中，lyrics = lyrics = html.find('div', class_='lyrics').get_text()您可以看到它首先调用了html.find('div', class='lyrics')，然后在该行上调用了.get_text()方法。目标站点中可能存在HTML解析器找不到div的页面，在这种情况下返回None。解析器找不到目标div可能有多种原因。可能是因为div不存在，也可能是因为解析器在隐式时间限制内找不到目标div

当您试图在None上调用.get_text()时，python正在提升AttributeError

您必须始终在web抓取代码中处理这些类型的错误。您可以做的是处理错误并忽略它，因为它是预期的。您可以这样做：

def scrape_song_lyrics(url):
    page = requests.get(url)
    html = BeautifulSoup(page.text, 'html.parser')
    
    try:
        lyrics = html.find('div', class_='lyrics').get_text()
    except AttributeError:
        print('cannot find the target div: lyrics')
        return None
    
    else:
        #remove identifiers like chorus, verse, etc
        lyrics = re.sub(r'[\(\[].*?[\)\]]', '', lyrics)
        #remove empty lines
        lyrics = os.linesep.join([s for s in lyrics.splitlines() if s]) 
        return lyrics

当错误发生时，它将返回None，而不是抛出属性错误。然后，如果需要，可以编写一个重试逻辑，调用方将在被调用方返回None时重试运行被调用方

网友

2楼 · 编辑于 2024-06-06 04:30:44

问题是，服务器返回两个版本的HTML页面。要从两个版本中获取歌词，可以使用以下示例：

import os
import re
import requests
from bs4 import BeautifulSoup
  

def scrape_song_lyrics(url):
    page = requests.get(url)
    html = BeautifulSoup(page.text, "html.parser")
    lyrics = html.select_one(
        'div[class^="lyrics"], div[class^="SongPage__Section"]'
    ).get_text(separator="\n")
    # remove identifiers like chorus, verse, etc
    lyrics = re.sub(r"[\(\[].*?[\)\]]", "", lyrics)
    # remove empty lines
    lyrics = os.linesep.join([s for s in lyrics.splitlines() if s])
    return lyrics

对于测试，您可以使用例如：

url = "https://genius.com/Billie-eilish-your-power-lyrics"

for i in range(100):
    print(scrape_song_lyrics(url))
    print(i, "-" * 100)

相关问题更多 >

编程相关推荐

热门问题

热门文章