用Pandas过滤Jupyter笔记本中的Excel文档数据

import pandas as pd xls = pd.ExcelFile(r'C:\Users\Edward\Desktop\BBMF Schedules And Master Forum Thread Texts\BBMF Display Schedule 2009.xls') data = pd.read_excel(xls, sheet_name="Sheet1") pd.options.display.max_rows = 1000 df = pd.DataFrame(data, columns= ['Venue','A/C','DISPLAY/','Date','BID']) df[(df['Venue'].str.contains('[a-zA-Z]') & (df['DISPLAY/'].str.contains('DISPLAY') & df['A/C'].str.contains("DHS|DAK|HS|SPIT")) & (df['A/C'] != 'LHS') & (df['A/C'] != 'LANC'))]

Venue A/C DISPLAY/ Date BID 25 SHUTTLEWORTH DAK DISPLAY NaN 529 55 KEMBLE DAK DISPLAY NaN 461 69 NORTHWICH SPIT DISPLAY 2008-05-10 00:00:00 514 72 POCKLINGTON SPIT DISPLAY 2009-05-10 00:00:00 821 75 BERLIN DAK DISPLAY 2008-05-12 00:00:00 587 78 MILDENHALL SPIT DISPLAY 2009-05-15 00:00:00 920 93 DUXFORD HS DISPLAY NaN 611 103 CRANWELL HS DISPLAY 2008-05-20 00:00:00 44 145 SCARBOROUGH DAK DISPLAY 2008-05-25 00:00:00 610 150 SCARBOROUGH SPIT DISPLAY 2008-05-25 00:00:00 610 151 CORBRIDGE SPIT DISPLAY NaN 353 167 BRIDGEND-CNX SPIT DISPLAY 2008-05-31 00:00:00 527 173 TARRANT RUSHDEN HS DISPLAY NaN 132 174 TARRANT RUSHDEN DAK DISPLAY NaN 132 179 NORTHOLT SPIT DISPLAY 2009-06-05 00:00:00 870 214 BRIZE NORTON HS DISPLAY NaN 939 218 ROPLEY HS DISPLAY 2008-06-13 00:00:00 355 223 THWAITES HS DISPLAY NaN 364 231 ROPLEY HS DISPLAY NaN 355 240 COSFORD HS DISPLAY 2008-06-14 00:00:00 667 241 QUORN HS DISPLAY NaN 314 244 COSFORD DAK DISPLAY 2008-06-14 00:00:00 NaN 260 REDHILL SPIT DISPLAY NaN 686 269 KEMBLE DAK DISPLAY NaN 316 270 KEMBLE HS DISPLAY NaN 316 280 KEMBLE SPIT DISPLAY 2008-06-21 00:00:00 316 285 KEMBLE DAK DISPLAY 2008-06-21 00:00:00 316

selected = df.loc[df['A/C'] == 'DS', 'DH', 'DHS'] groupby_venue_date = selected.groupby(['Venue', 'BID', 'DISPLAY/']) aircraft = groupby_venue_date['A/C std'].apply(''.join).rename('Aircraft-combined') print(aircraft.shape) pd.DataFrame(aircraft)

import pandas as pd xls = pd.ExcelFile(r'C:\Users\Edward\Desktop\BBMF Schedules And Master Forum Thread Texts\BBMF Display Schedule 2009.xls') data = pd.read_excel(xls, sheet_name="Sheet1") pd.options.display.max_rows = 1000 df = pd.DataFrame(data, columns= ['Venue','A/C','DISPLAY/','Date','BID']) #df[(df['Venue'].str.contains('[a-zA-Z]') & (df['DISPLAY/'].str.contains('DISPLAY') & df['A/C'].str.contains("DHS|DAK|HS|SPIT")) & (df['A/C'] != 'LHS') & (df['A/C'] != 'LANC'))] df["Date"].fillna("No Date", inplace = True) df['A/C'].unique().tolist() rename_map = { 'DAK': 'D', 'SPIT': 'S', 'LANC': 'L', 'HURRI': 'H', 'PARA': 'P' } df['A/C std'] = df['A/C'].replace(rename_map) print(df['A/C std'].unique().tolist()) #selected = df.loc[df['A/C'] == 'DS', 'DH', 'DHS'] selected = df.loc[df['DISPLAY/'] == 'DISPLAY'] groupby_venue_date = selected.groupby(['Venue', 'BID', 'Date', 'DISPLAY/']) aircraft = groupby_venue_date['A/C std'].apply(''.join).rename('Aircraft-combined') print(aircraft.shape) pd.DataFrame(aircraft)

1条回答

网友

1楼 · 发布于 2024-04-27 02:40:56

我不确定我是否完全理解你想做什么，但我会提供一些技术来帮助你解决这个问题。你知道吗

例如，获取列的唯一值列表：

df['A/C'].unique().tolist()

[nan, 'L', 'S', 'H', 'LHS', 'LANC', 'DAK', 'SPIT', 'HS', 'HURRI', 'PARA', 'LSSD', 'LSS', 'SS', 'LH', 'DH', 'DHS', 'SSSHH']

部分问题似乎是处理这些不同飞机组合的速记条目。你说'DHS'代表达科他州、喷火和飓风。在尝试合并行之前，最好先处理这些非标准值。一种方法是使用字典替换所有非标准值。你知道吗

例如

rename_map = {
    'DAK': 'D',
    'SPIT': 'S',
    'LANC': 'L',
    'HURRI': 'H',
    'PARA': 'P'
}
df['A/C std'] = df['A/C'].replace(rename_map)
print(df['A/C std'].unique().tolist())

[nan, 'L', 'S', 'H', 'LHS', 'D', 'HS', 'P', 'LSSD', 'LSS', 'SS', 'LH', 'DH', 'DHS', 'SSSHH']

你可以做任何你想做的事。例如，选择数据的子集：

selected = df.loc[df['DISPLAY/'] == 'DISPLAY']
assert selected.shape == (202, 6)

然后按所选列对行进行分组，并使用字符串连接方法连接飞机代码：

groupby_venue_date = selected.groupby(['Venue', 'Date'])
aircraft = groupby_venue_date['A/C std'].apply(''.join).rename('Aircraft-combined')
assert aircraft.index.duplicated().sum() == 0
print(aircraft.shape)
print(aircraft.head())

(89,)
Venue     Date      
AUDLEM    2008-07-26      S
AYLSHAM   2008-08-31    LHS
BEAULIEU  2008-05-25      H
BELTRING  2008-07-26      L
BENSON    2008-08-27    LHS
Name: Aircraft-combined, dtype: object

一些值已合并：

print(aircraft.unique().tolist())
['S', 'LHS', 'H', 'L', 'D', 'HS', 'HSD', 'SLH', 'DHS', 'SD', 'SSSHH', 'LH', 'DS', 'DH', 'HSL']

更新

通过生成函数并使用apply方法，可以对这些代码执行其他操作。你知道吗

例如sorting the string或removing duplicated characters（这也恰好对它们进行排序）。你知道吗

def sorted_string(s):
    return ''.join(sorted(s))

def remove_duplicate_chars(s):
    return ''.join(set(s))

aircraft = aircraft.apply(remove_duplicate_chars)
print(aircraft.unique().tolist())

['S', 'LHS', 'H', 'L', 'D', 'HS', 'DHS', 'DS', 'LH', 'DH']

相关问题更多 >

编程相关推荐

热门问题

热门文章