对于span标记，从bs4获取\u text（）是否不同？无法删除跨度标记

from bs4 import BeautifulSoup import requests import csv data_list=[] url = 'https://www.yell.com/ucs/UcsSearchAction.do?keywords=farmer&location=leeds' headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', } site = requests.get(url, headers=headers, timeout=5); if site.status_code is 200: content = BeautifulSoup(site.content, 'html.parser') #print(content) questions = content.find_all(class_='businessCapsule') for question in questions: busname = question.find(class_='businessCapsule--name').get_text() bustype = question.find(class_='businessCapsule--classification').get_text() busnum = question.find('span', {'itemprop': 'telephone'}) print(busnum) busnumber = busnum.get_text() new_data = {"busname": busname, "bustype": bustype, "busnumber": busnumber} data_list.append(new_data) with open ('selector.csv','w') as file: writer = csv.DictWriter(file, fieldnames = ["busname", "bustype", "busnumber"], delimiter = ';') writer.writeheader() for row in data_list: writer.writerow(row)

from bs4 import BeautifulSoup import requests import csv data_list=[] url = 'https://www.yell.com/ucs/UcsSearchAction.do?keywords=farmer&location=leeds' headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', } site = requests.get(url, headers=headers, timeout=5); if site.status_code is 200: content = BeautifulSoup(site.content, 'html.parser') #print(content) questions = content.find_all(class_='businessCapsule') for question in questions: busname = question.find(class_='businessCapsule--name').get_text() bustype = question.find(class_='businessCapsule--classification').get_text() busnumber = question.find('span', {'itemprop': 'telephone'}).get_text() new_data = {"busname": busname, "bustype": bustype, "busnumber": busnumber} data_list.append(new_data) with open ('selector.csv','w') as file: writer = csv.DictWriter(file, fieldnames = ["busname", "bustype", "busnumber"], delimiter = ';') writer.writeheader() for row in data_list: writer.writerow(row)

from bs4 import BeautifulSoup as bs import requests import csv data_list=[] url = 'https://www.yell.com/ucs/UcsSearchAction.do?keywords=farmer&location=leeds' headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', } site = requests.get(url, headers=headers, timeout=5) soup = bs(site.content, 'html.parser') questions = soup.select('.businessCapsule--mainContent') for question in questions: busname = question.find(class_='businessCapsule--name').get_text() bustype = question.find(class_='businessCapsule--classification').get_text() busnumber = question.select_one('span.business--telephoneNumber').text print(busnumber) new_data = {"busname": busname, "bustype": bustype, "busnumber": busnumber} data_list.append(new_data) with open ('selector.csv','w') as file: writer = csv.DictWriter(file, fieldnames = ["busname", "bustype", "busnumber"], delimiter = ';') writer.writeheader() for row in data_list: writer.writerow(row)

1条回答

网友

1楼 · 发布于 2024-05-15 22:19:15

您需要获取不同的父级，以便选择适当的子级并更改子级的选择器，如下所示：

import requests
from bs4 import BeautifulSoup as bs

url = 'https://www.yell.com/ucs/UcsSearchAction.do?keywords=farmer&location=leeds'
headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    }
site = requests.get(url, headers=headers, timeout=5)
soup = bs(site.content, 'lxml')
questions = soup.select('.businessCapsule mainContent:has(span.business telephoneNumber)')
for question in questions:
    print(question.select_one('span.business telephoneNumber').text)

如果您选中这个不同的父选择器，您将看到它选择了整个框中的信息，这样您就可以选择您的各种子

如果这是太报复你可以测试，如果电话是存在的

import requests
from bs4 import BeautifulSoup as bs

url = 'https://www.yell.com/ucs/UcsSearchAction.do?keywords=farmer&location=leeds'
headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    }
site = requests.get(url, headers=headers, timeout=5)
soup = bs(site.content, 'lxml')
questions = soup.select('.businessCapsule mainContent')
for question in questions:
    tel = question.select_one('span.business telephoneNumber')
    if tel is None:
        tel = 'Not present'
    else:
        tel = tel.text
    print(tel)

相关问题更多 >

编程相关推荐

热门问题

热门文章