使用Beautiful Soup select或lxml xpath从html获取href

<li class="meta-row clearfix"> <div class="meta-label subtle">Rating: </div> <div class="meta-value">NR</div> </li> <li class="meta-row clearfix"> <div class="meta-label subtle">Genre: </div> <div class="meta-value"> <a href="/browse/opening/?genres=9">Drama</a>, <a href="/browse/opening/?genres=12">Musical & Performing Arts</a> </div> </li> <li class="meta-row clearfix"> <div class="meta-label subtle">Directed By: </div> <div class="meta-value"> <a href="/celebrity/kirill_serebrennikov">Kirill Serebrennikov</a> </div> </li> <li class="meta-row clearfix"> <div class="meta-label subtle">Written By: </div> <div class="meta-value"> <a href="/celebrity/michael_idov">Mikhail Idov</a>, <a href="/celebrity/lily_idova">Lili Idova</a>, <a href="/celebrity/ivan_kapitonov">Ivan Kapitonov</a>, <a href="/celebrity/kirill_serebrennikov">Kirill Serebrennikov</a>, <a href="/celebrity/natalya_naumenko">Natalya Naumenko</a> </div> </li> <li class="meta-row clearfix"> <div class="meta-label subtle">In Theaters: </div> <div class="meta-value"> <time datetime="2019-06-06T17:00:00-07:00">Jun 7, 2019</time> <span style="text-transform:capitalize"> limited</span> </div> </li> <li class="meta-row clearfix"> <div class="meta-label subtle">Runtime: </div> <div class="meta-value"> <time datetime="P126M"> 126 minutes </time> </div> </li> <li class="meta-row clearfix"> <div class="meta-label subtle">Studio: </div> <div class="meta-value"> <a href="http://sonypictures.ru/leto/" target="movie-studio">Gunpowder & Sky</a> </div> </li>

<div class="meta-value"> <a href="/celebrity/michael_idov">Mikhail Idov</a>, <a href="/celebrity/lily_idova">Lili Idova</a>, <a href="/celebrity/ivan_kapitonov">Ivan Kapitonov</a>, <a href="/celebrity/kirill_serebrennikov">Kirill Serebrennikov</a>, <a href="/celebrity/natalya_naumenko">Natalya Naumenko</a>

1条回答

网友

1楼 · 发布于 2024-05-18 23:30:08

尝试以下脚本以获取您感兴趣的内容。一定要用不同的电影来测试它们。我想他们都能生产出所需的产品。我试图避免任何硬编码索引以内容为目标。你知道吗

使用css选择器：

import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.rottentomatoes.com/m/leto')
soup = BeautifulSoup(r.text,'lxml')

directed = soup.select_one(".meta-row:contains('Directed By') > .meta-value > a").text
written = [item.text for item in soup.select(".meta-row:contains('Written By') > .meta-value > a")]
written_links = [item.get("href") for item in soup.select(".meta-row:contains('Written By') > .meta-value > a")]
print(directed,written,written_links)

使用xpath:

import requests
from lxml.html import fromstring

r = requests.get('https://www.rottentomatoes.com/m/leto')
root = fromstring(r.text)

directed = root.xpath("//*[contains(.,'Directed By')]/parent::*/*[@class='meta-value']/a/text()")
written = root.xpath("//*[contains(.,'Written By')]/parent::*/*[@class='meta-value']/a/text()")
written_links = root.xpath(".//*[contains(.,'Written By')]/parent::*/*[@class='meta-value']/a//@href")
print(directed,written,written_links)

在cast的情况下，我使用了列表理解，这样我就可以在单个元素上使用.strip()来清除空白。normalize-space()是最理想的选择。你知道吗

cast = [item.strip() for item in root.xpath("//*[contains(@class,'cast-item')]//a/span[@title]/text()")]

相关问题更多 >

编程相关推荐

热门问题

热门文章