填充特定行时删除重复项（按行填充）

>> pd.DataFrame([["Anne", True, 1, "A"],["Bert", True, None, "B"],["Conan", False, 0, None],["Bert", None, None, None],["Conan", None, None, "C"],["Bert",None,2,None]], columns = ["Name", "Bool", "Int", "Char"]) Name Bool Int Char 0 Anne True 1.0 A 1 Bert True NaN B 2 Conan False 0.0 None 3 Bert None NaN None 4 Conan None NaN C 5 Bert None 2.0 None

第一部分及；二,

>>> def remove_duplicates_smartly(df, columns): df.assign(nan_count= df.isna().sum(axis=1), inplace=True) df.sort_values(['nan_count'], inplace=True).drop_duplicates(columns, inplace=True) df.drop(columns=["nan_count"], inplace=True) return df >>> my_df = pd.DataFrame([["Anne", True, 1, "A"],["Bert", True, None, "B"],["Conan", False, 0, None],["Bert", None, None, None],["Conan", None, None, "C"],["Bert",None,2,None]], columns = ["Name", "Bool", "Int", "Char"]) >>> remove_duplicates_smartly(my_df) >>> remove_duplicates_smartly(my_df, ["Name"]) Name Bool Int Char 0 Anne True 1.0 A 1 Bert True NaN B 2 Conan False 0.0 None

1条回答

网友

1楼 · 发布于 2024-05-15 15:04:18

对于由列指定的每个组的替换值，可以使用带有正向和反向填充None或NaN值的自定义lambda函数

如果使用填充了非缺失值的列（如Name）进行分组，则解决方案将正常工作

columns = 'Name'
df = df.groupby(columns).apply(lambda x: x.ffill().bfill()).drop_duplicates(columns)
print (df)
    Name   Bool  Int Char
0   Anne   True  1.0    A
1   Bert   True  2.0    B
2  Conan  False  0.0    C

第一部分及；二,

期望输出

相关问题更多 >

编程相关推荐

热门问题

热门文章