熊猫指数缺失值

import pandas as pd df1 = pd.DataFrame({'id': ['1', '1', '1', '2', '2'], 'year': [2013, 2014, 2015, 2012, 2013], 'val': [np.nan, np.nan, 300, np.nan, 150]}) df1

df1 = df1.merge(df2[['year', 'factor']], how = 'left', on = 'year') missings = df1['val'].sum() while df1['val'].isnull().sum() < missings: missings = df1['val'].isnull().sum() df1.loc[df1['val'].notnull(), 'factor'] = 1 df1['val'] = df1.groupby('id')['val'].fillna(method='bfill', limit=1) df1['val'] = df1['val'] / df1['factor'] df1.drop(columns = 'factor').head()

1条回答

网友

1楼 · 发布于 2024-04-18 19:16:08

可以在列factor和^{}上使用^{}，然后用[::-1]反转顺序，所有这些都在groupby中，例如：

df1 = df1.merge(df2[['year', 'factor']], how = 'left', on = 'year')
df1.loc[df1['val'].notnull(),'factor']=1 #set factor to one where val exists
# here is how to get the factor you want when it's not just before a value
df1['factor'] = df1.groupby('id')['factor'].transform(lambda x: x[::-1].cumprod()[::-1])
df1['val'] = df1['val'].bfill()/df1['factor'] #back fill val no limitation and divide by factor
print (df1)
  id  year         val    factor
0  1  2013  283.486239  1.058252 #here it's 1*1.038095*1.019417
1  1  2014  288.990826  1.038095 #here it's 1*1.038095
2  1  2015  300.000000  1.000000 
3  2  2012  145.631068  1.030000 #here it's 1*1.03
4  2  2013  150.000000  1.000000

相关问题更多 >

编程相关推荐

热门问题

热门文章