按分组行获取唯一值

MonitorDate 2010/1/1 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... 2010/1/2 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... 2010/1/3 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... 2010/1/4 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... 2010/1/5 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... 2010/1/6 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... 2010/1/7 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ... Name: ItemEngName, dtype: object

MonitorDate 2010/1/1 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ..., WS_HR] (full) 2010/1/7 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, PM2.5, ...] ..(lack WS_HR) 2010/1/8 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM2.5, ..., WS_HR] .(lack PM10) 2010/1/9 [AMB_TEMP, CO, NO, NO2, NOx, O3, PM10, , ...] .......(lack PM2.5) ... Name: ItemEngName, dtype: object

1条回答

网友

1楼 · 发布于 2024-05-16 10:56:51

您可以groupby列A，然后取B列并将分组值转换为具有apply的列表：

df.groupby('A')['B'].apply(list)

输出：

A
fr         [air, bug, sun, mud]
us    [air, gas, sun, fog, mud]
Name: B, dtype: object

如果列表可能有重复项，而您只对唯一值感兴趣，那么最好的选择可能是使用@anky评论中的解决方案：

df.groupby('A')['B'].unique()

更新：在您的数据集中，它们几乎相同，除了2010/1/7没有WS_HR：

df[['MonitorDate', 'ItemEngName']].value_counts().unstack()

输出：

ItemEngName  AMB_TEMP   CO   NO  NO2  NOx   O3  PM10  PM2.5   RH  SO2  WD_HR  \
MonitorDate                                                                    
2010/1/1          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   
2010/1/2          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   
2010/1/3          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   
2010/1/4          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   
2010/1/5          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   
2010/1/6          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   
2010/1/7          1.0  1.0  1.0  1.0  1.0  1.0   1.0    1.0  1.0  1.0    1.0   

ItemEngName  WIND_DIREC  WIND_SPEED  WS_HR  
MonitorDate                                 
2010/1/1            1.0         1.0    1.0  
2010/1/2            1.0         1.0    1.0  
2010/1/3            1.0         1.0    1.0  
2010/1/4            1.0         1.0    1.0  
2010/1/5            1.0         1.0    1.0  
2010/1/6            1.0         1.0    1.0  
2010/1/7            1.0         1.0    NaN

更新2:如果您只想直观地检查哪些天有哪些项目，您可以绘制它。例如，在这里您可以看到WS_HR上缺少2010/1/7：

z = df[['MonitorDate', 'ItemEngName']].value_counts().unstack()
plt.pcolor(z, alpha=0.2)
plt.yticks(np.arange(0.5, len(z.index), 1), z.index)
plt.xticks(np.arange(0.5, len(z.columns), 1), z.columns, rotation=90)
plt.show()

输出：

相关问题更多 >

编程相关推荐

热门问题

热门文章