如果行具有相同的“A列”值，则用最后一个已知值填充空的“B列”单元格

df=pd.DataFrame({'A': ["2019-03-13 08:12:23", "2019-03-13 07:10:18", "2019-03-20 08:12:23", "2019-03-13 08:12:23", "2019-03-15 10:35:53", "2019-03-20 11:12:23"], 'B': ["B1", "B0", "B13", np.nan, "B10", "B12"]}) A B 0 2019-03-13 08:12:23 B1 1 2019-03-13 07:10:18 B0 2 2019-03-20 08:12:23 B13 3 2019-03-13 08:12:23 NaN 4 2019-03-15 10:35:53 B10 5 2019-03-20 11:12:23 B12

3条回答

网友

1楼 · 编辑于 2024-05-12 22:09:32

试试groupby().idxmax()：

max_val = df.loc[df['A'].groupby(df['A'].dt.date).transform('idxmax'),'B'].values

df['B'] = np.where(df['B'].isna(), max_val, df['B'])

输出：

                    A    B
0 2019-03-13 08:12:23   B1
1 2019-03-13 07:10:18   B0
2 2019-03-20 08:12:23  B13
3 2019-03-13 08:12:23   B1
4 2019-03-15 10:35:53  B10
5 2019-03-20 11:12:23  B12

网友

2楼 · 编辑于 2024-05-12 22:09:32

使用groupby+ffill

as_date = pd.to_datetime(df.A)
s = np.argsort(as_date)

df['B'] = df.B.loc[s].groupby(as_date.loc[s].dt.date).ffill().loc[df.index]

                     A    B
0  2019-03-13 08:12:23   B1
1  2019-03-13 07:10:18   B0
2  2019-03-20 08:12:23  B13
3  2019-03-13 08:12:23   B1
4  2019-03-15 10:35:53  B10
5  2019-03-20 11:12:23  B12

网友

3楼 · 编辑于 2024-05-12 22:09:32

您的任务可以使用以下一行程序执行：

df.B = df.sort_values('A').groupby(pd.to_datetime(df.A).dt.date).B.ffill()

相关问题更多 >

编程相关推荐

热门问题

热门文章