如何从html元素中获取href内容

2024-04-16 15:36:15 发布

您现在位置:Python中文网/ 问答频道 /正文

<a href="/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx" title="Apartamento en Venta - Bogotá Nicolás de Federmán">
   <div>
      <h2 class="h2-grid">
         Apartamento en Bogotá - Nicolás De Federmán
      </h2>
   </div>
   <br/>
   <div>
      Cundinamarca
   </div>
</a>
, 
<a href="/apartamento-en-venta/ibague/multicentro-det-2952281.aspx" title="Apartamento en Venta - Ibagué Multicentro">
   <div>
      <h2 class="h2-grid">
         Apartamento en Ibagué - Multicentro
      </h2>
   </div>
   <br/>
   <div>
      Tolima
   </div>
</a>
, 
<a href="/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx" title="Apartamento en Venta - Bogotá Bella Suiza">
   <div>
      <h2 class="h2-grid">
         Apartamento en Bogotá - Bella Suiza
      </h2>
   </div>
   <br/>
   <div>
      Cundinamarca
   </div>
</a>
, 
<a href="/apartamento-en-venta/bogota/cedritos-det-2844663.aspx" title="Apartamento en Venta - Bogotá Cedritos">
   <div>
      <h2 class="h2-grid">
         Apartamento en Bogotá - Cedritos
      </h2>
   </div>
   <br/>
   <div>
      Cundinamarca
   </div>
</a>
, 
<a href="/oficina-en-venta/bogota/usaquen-det-3036032.aspx" title="Oficina en Venta - Bogotá Usaquén">
   <div>
      <h2 class="h2-grid">
         Oficina en Bogotá - Usaquén
      </h2>
   </div>
   <br/>
   <div>
      Cundinamarca
   </div>
</a>

如何从上面的html元素获取“aspx”链接。从上面的html内容中,我需要获取以下值

/apartamento-en-venta/bogota/nicolas_federman-det-2658430.aspx
/apartamento-en-venta/ibague/multicentro-det-2952281.aspx
/apartamento-en-venta/bogota/bella_suiza-det-2865659.aspx
/apartamento-en-venta/bogota/cedritos-det-2844663.aspx

我使用了下面的python代码来获取html元素,需要知道如何获取aspx值 url='https://www.fincaraiz.com.co/finca-raiz/?ad=30|2||||1||||||||||||||||||||||1|||1||||||'

import re
import requests
from bs4 import BeautifulSoup
page = requests.get(url)
soup = BeautifulSoup(page.content , 'lxml')
index = soup.findAll('div' , 'span-title')
x = []
for i in index:
    x.append(i.find('a'))
print (x)

我已经在代码上方发布了url,以便将其输入到python代码中


Tags: divtitleh2classgridenhrefdet