如何将网站中的所有抓取数据保存在数据框中？

import pandas as pd from commonregex import CommonRegex from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://www.thetaxshopinc.com/pages/contact-tax-accountant-brampton' html = urlopen(url) soup = BeautifulSoup(html, 'lxml') for link in soup.find_all('p'): df = CommonRegex() df1 = df.street_addresses(link.get_text()) df2 = df.phones(link.get_text()) df3 = df.emails(link.get_text()) for i in df1: dfr = pd.DataFrame([i], columns = ['Address']) for j in df2: dfr1 = pd.DataFrame([j], columns = ['Phone_no']) dfr1['Phone_no'] = dfr1['Phone_no'].str.cat(sep=', ') dfr1.drop_duplicate(inplace = True) for k in df3: dfr2 = pd.DataFrame([k], columns = ['Email']) dfc = pd.concat([dfr, dfr1, dfr2], axis = 1)

1条回答

网友

1楼 · 发布于 2024-04-28 02:35:22

这应该做到：

import pandas as pd
from commonregex import CommonRegex
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.thetaxshopinc.com/pages/contact-tax-accountant-brampton'
html = urlopen(url)
soup = BeautifulSoup(html, 'lxml')

dict_data = {'address':[], 'phone_no': [], 'email': []
}

crex = CommonRegex()

for link in soup.find_all('p'):

    str_add = crex.street_addresses(link.get_text())
    phone = crex.phones(link.get_text())
    email = crex.emails(link.get_text())

    if str_add:
        dict_data['address'].append(str_add[0])
    if phone:
        dict_data['phone_no'].append(', '.join(phone))
    if email:
        dict_data['email'].append(email[0]) 

df = pd.DataFrame(dict_data)

相关问题更多 >

编程相关推荐

热门问题

热门文章