用列中最近邻的平均值输入缺失值

df = pd.DataFrame(data=[676, 0, 670, 0, 668], index=['2012-01-31 00:00:00','2012-02-29 00:00:00', '2012-03-31 00:00:00','2012-04-30 00:00:00', '2012-05-31 00:00:00']) df.index.name = "Date" df.columns = ["Number"]

3条回答

网友

1楼 · 编辑于 2024-04-25 22:58:05

#use apply to fill the Number with average from surrounding rows.
df['Number'] = df.reset_index().apply(lambda x: df.reset_index()\
                               .iloc[[x.name-1,x.name+1]]['Number'].mean() \
                               if (x.name>0) & (x.Number==0) else x.Number,axis=1).values

df
Out[1440]: 
                     Number
Date                       
2012-01-31 00:00:00   676.0
2012-02-29 00:00:00   673.0
2012-03-31 00:00:00   670.0
2012-04-30 00:00:00   669.0
2012-05-31 00:00:00   668.0

网友

2楼 · 编辑于 2024-04-25 22:58:05

@spies006答案可改编为：

df.where(df.replace(to_replace=0, value=np.nan).isna(), other=(df.fillna(method='ffill') + df.fillna(method='bfill'))/2)

可以简化为：

^{pr2}$

网友

3楼 · 编辑于 2024-04-25 22:58:05

我使用where方法并指定将任何0替换为np.nan。一旦我们将0指定为NaN，我们就可以使用fillna方法。通过使用ffill和bfill，我们将所有{}填充为相应的先前值和后续值，将它们相加，然后除以2。在

df.where(df.replace(to_replace=0, value=np.nan),
 other=(df.fillna(method='ffill') + df.fillna(method='bfill'))/2)

                     Number
Date                       
2012-01-31 00:00:00   676.0
2012-02-29 00:00:00   673.0
2012-03-31 00:00:00   670.0
2012-04-30 00:00:00   669.0
2012-05-31 00:00:00   668.0

相关问题更多 >

编程相关推荐

热门问题

热门文章

用列中最近邻的平均值输入缺失值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >