用非常规方法有条件地填充数据帧中的缺失值

code_names = [ "", 'Economic management', 'Public sector governance', 'Rule of law', 'Financial and private sector development', 'Trade and integration', 'Social protection and risk management', 'Social dev/gender/inclusion', 'Human development', 'Urban development', 'Rural development', 'Environment and natural resources management' ] df_copy = df_.copy() # Looks through each code name, and if it is empty, stores the proper name in its place for x in range(len(df_copy.mjtheme_namecode)): for y in range(len(df_copy.mjtheme_namecode[x])): if(df_copy.mjtheme_namecode[x][y]['name'] == ""): df_copy.mjtheme_namecode[x][y]['name'] = code_names[int(df_copy.mjtheme_namecode[x][y]['code'])] limit = 25 counter = 0 for x in range(len(df_copy.mjtheme_namecode)): for y in range(len(df_copy.mjtheme_namecode[x])): print(df_copy.mjtheme_namecode[x][y]) counter += 1 if(counter >= limit): break

1条回答

网友

1楼 · 发布于 2024-04-25 14:20:30

方法1:

一种方法是用NaN替换所有""空格，按code和name对数据帧排序，然后使用^{}：

从这个开始：

>>> df
   code       name
0     1  Australia
1     2     London
2     1

您可以应用以下内容：

new_df = (df.replace({'name':{'':np.nan}})
          .sort_values(['code', 'name'])
          .fillna(method='ffill')
          .sort_index())

>>> new_df
   code       name
0     1  Australia
1     2     London
2     1  Australia

方法2:

这更复杂，但也会起作用：使用groupby、first和sqeeze，可以创建pd.Series将代码映射到非空名称，并使用.map将序列映射到code列：

df['name'] = (df['code']
              .map(
                  df.replace({'name':{'':np.nan}})
                  .sort_values(['code', 'name'])
                  .groupby('code')
                  .first()
                  .squeeze()
              ))

>>> df
   code       name
0     1  Australia
1     2     London
2     1  Australia

解释：这样创建的pd.Series映射如下所示：

code
1    Australia
2       London

它之所以有效是因为它获得了每个代码的第一个实例（通过groupby），排序方式使得NaN是最后一个。因此，只要每个代码都与一个名称相关联，这个方法就可以工作。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章