Groupby和命名聚合|优化Pandas中的数据帧生成

data = { 'CODIGO_SINIESTRO': [10476434, 10476434, 4482524, 4482524, 4486110], 'CONDICION': ['PASAJERO', 'CONDUCTOR', 'MOTOCICLISTA', 'CICLISTA', 'PEATON'], 'EDAD': [62.0, 29.0, 26.0, 47.0, 33.0], 'SEXO': ['MASCULINO', 'FEMENINO', 'FEMENINO', 'MASCULINO', 'FEMENINO'] } df = pd.DataFrame(data)

CODIGO_SINIESTRO CONDICION EDAD SEXO 0 10476434 PASAJERO 62.0 MASCULINO 1 10476434 CONDUCTOR 29.0 MASCULINO 2 4482524 MOTOCICLISTA 26.0 MASCULINO 3 4482524 CICLISTA 47.0 MASCULINO 4 4486110 PEATON 33.0 FEMENINO

df_final = df.groupby(['CODIGO_SINIESTRO']).agg( CANTIDAD_HOMBRES=pd.NamedAgg(column='SEXO', aggfunc=lambda x: (x=='MASCULINO').sum()), CANTIDAD_MUJERES=pd.NamedAgg(column='SEXO', aggfunc=lambda x: (x=='FEMENINO').sum()), PROMEDIO_EDAD=pd.NamedAgg(column='EDAD', aggfunc=np.mean), MOTOCICLISTA=pd.NamedAgg(column='CONDICION', aggfunc=lambda x: (x=='MOTOCICLISTA').any().astype(int)), CONDUCTOR=pd.NamedAgg(column='CONDICION', aggfunc=lambda x: (x=='CONDUCTOR').any().astype(int)), PEATON=pd.NamedAgg(column='CONDICION', aggfunc=lambda x: (x=='PEATON').any().astype(int)), CICLISTA=pd.NamedAgg(column='CONDICION', aggfunc=lambda x: (x=='CICLISTA').any().astype(int)), PASAJERO=pd.NamedAgg(column='CONDICION', aggfunc=lambda x: (x=='PASAJERO').any().astype(int)) ).reset_index()

CODIGO_SINIESTRO CANTIDAD_HOMBRES CANTIDAD_MUJERES PROMEDIO_EDAD ... 0 4482524 1 1 36.5 1 4486110 0 1 33.0 2 10476434 1 1 45.5 ... MOTOCICLISTA CONDUCTOR PEATON CICLISTA PASAJERO 1 0 0 1 0 0 0 1 0 0 0 1 0 0 1

1条回答

网友

1楼 · 发布于 2024-05-16 08:35:06

使用矢量化方法进行预聚合应该效率更高（结果是速度快了100倍）：

df['PROMEDIO_EDAD']= df.groupby('CODIGO_SINIESTRO')['EDAD'].transform(np.mean)
df['CANTIDAD_HOMBRES'] = np.where(df['SEXO'] == 'MASCULINO', 1, 0)
df['CANTIDAD_MUJERES'] = np.where(df['SEXO'] == 'FEMENINO', 1, 0)
for col in df['CONDICION'].unique():
    df[col] = np.where(df['CONDICION'] == col, 1, 0)
df = df.groupby(['CODIGO_SINIESTRO', 'PROMEDIO_EDAD']).sum().reset_index().drop('EDAD', axis=1)
df.iloc[:,2:] = (df.iloc[:,2:] > 0).astype(int)
df
Out[1]: 
   CODIGO_SINIESTRO  PROMEDIO_EDAD  CANTIDAD_HOMBRES  CANTIDAD_MUJERES  \
0           4482524           36.5                 1                 1   
1           4486110           33.0                 0                 1   
2          10476434           45.5                 1                 1   

   PASAJERO  CONDUCTOR  MOTOCICLISTA  CICLISTA  PEATON  
0         0          0             1         1       0  
1         0          0             0         0       1  
2         1          1             0         0       0

相关问题更多 >

编程相关推荐

热门问题

热门文章