无法从网页中分散获取某些项目

import re import requests from bs4 import BeautifulSoup link = 'https://colegios.es/2012/cra-la-gaznata-san-bartolome-de-pinares/' def get_content(link): res = requests.get(link,headers={'User-Agent':'Mozilla/5.0'}) soup = BeautifulSoup(res.text,"lxml") school_name = soup.select_one("h1 > a").get_text(strip=True) school_address = soup.find("p",text=re.compile('Dirección:\s*([^"]*?)')).text school_phone = soup.find("p",text=re.compile('Tel\.\s*(.*?)\s*')).text print(school_name,school_address,school_phone) if __name__ == '__main__': get_content(link)

CRA La Gaznata San Bartolomé de Pinares CRA La Gaznata Servicios: Jornada contínua, Educación Infantil y Primaria Público Dirección: del Pino, 2 5267 San Bartolomé de Pinares Ávila Tel. 920 270 070 Fax 920 270 070 05005981@educa.jcyl.es [google-map-v3 addmarkerlist=”del Pino, 2 5267 San Bartolomé de Pinares Ávila {}5-default.png”] CRA La Gaznata Servicios: Jornada contínua, Educación Infantil y Primaria Público Dirección: del Pino, 2 5267 San Bartolomé de Pinares Ávila Tel. 920 270 070 Fax 920 270 070 05005981@educa.jcyl.es [google-map-v3 addmarkerlist=”del Pino, 2 5267 San Bartolomé de Pinares Ávila {}5-default.png”]

1条回答

网友

1楼 · 发布于 2024-06-01 01:09:08

关键是将解析器更改为html5lib，这样<br>标记将通过get_text()方法正确地转换为换行符-然后使用re更容易解析文本：

import re
import requests
from bs4 import BeautifulSoup

link = 'https://colegios.es/2012/cra-la-gaznata-san-bartolome-de-pinares/'

def get_content(link):
    res = requests.get(link,headers={'User-Agent':'Mozilla/5.0'})
    soup = BeautifulSoup(res.text,"html5lib")

    text = soup.select_one('.post-content > p').get_text(strip=True, separator='\n')

    school_name, suburb = soup.select_one("h1 > a").get_text(strip=True, separator='\n').split('\n')
    school_address = re.findall(r'Dirección:\s*(.*)', text)[0]
    school_phone = re.findall(r'Tel\.\s*([\d\s]+\d)', text)[0]
    email = re.findall(r'[^\s]+@[^\s]+', text)[0]

    print(school_name)
    print(suburb)
    print(school_address)
    print(school_phone)
    print(email)

if __name__ == '__main__':
    get_content(link)

印刷品：

CRA La Gaznata
San Bartolomé de Pinares
del Pino, 2  5267  San Bartolomé de Pinares Ávila
920 270 070
05005981@educa.jcyl.es

相关问题更多 >

编程相关推荐

热门问题

热门文章