添加新列并删除替换空值列wis中的重复项

Duplication type: Check this column only (default) Check other columns only Check all columns Use Last Value: True - retain the last duplicate value False - retain the first of the duplicates (default)

Jason Miller 42 4 25 Tina Ali 36 31 57 Jake Milner 24 2 62 Jason Miller 42 4 25 Jake Milner 24 2 62 Amy Cooze 73 3 70 Jason Miller 42 4 25 Jason Miller 42 4 25 Jake Milner 24 2 62 Jake Miller 42 4 25

Jason Miller 42 4 25 Jake Ali 36 31 57 Jake Milner 24 2 62 Jason Miller 4 25 Jake Milner 2 62 Jake Cooze 73 3 70 Jason Miller 4 25 Jason Miller 4 25 Jake Milner 2 62 Jake Miller 4 25

1条回答

网友

1楼 · 发布于 2024-05-23 18:00:43

您可以使用^{}并指定C列的值，其中第一个出现的值出现在A列和B列中

然后可以用空字符串填充生成的Nans，以生成所需的数据帧。你知道吗

df = pd.read_csv(data, delim_whitespace=True, header=None, names=['A','B','C','D','E'])
df.loc[~df.duplicated(), "C'"] = df['C']
df.fillna('', inplace=True)
df = df[["A","B", "C'","D","E"]]
print(df)

       A       B  C'   D   E
0  Jason  Miller  42   4  25
1   Tina     Ali  36  31  57
2   Jake  Milner  24   2  62
3  Jason  Miller       4  25
4   Jake  Milner       2  62
5    Amy   Cooze  73   3  70
6  Jason  Miller       4  25
7  Jason  Miller       4  25
8   Jake  Milner       2  62
9   Jake  Miller  42   4  25

另一种方法是获取复制列的子集，并用空字符串替换相关列。然后，您可以使用^{}修改数据帧，使用原始的df。你知道吗

In [2]: duplicated_cols = df[df.duplicated(subset=['C', 'D', 'E'])]

In [3]: duplicated_cols
Out[3]: 
       A       B   C  D   E
3  Jason  Miller  42  4  25
4   Jake  Milner  24  2  62
6  Jason  Miller  42  4  25
7  Jason  Miller  42  4  25
8   Jake  Milner  24  2  62
9   Jake  Miller  42  4  25

In [4]: duplicated_cols.loc[:,'C'] = ''

In [5]: df.update(duplicated_cols)

In [6]: df
Out[6]: 
       A       B   C     D     E
0  Jason  Miller  42   4.0  25.0
1   Tina     Ali  36  31.0  57.0
2   Jake  Milner  24   2.0  62.0
3  Jason  Miller       4.0  25.0
4   Jake  Milner       2.0  62.0
5    Amy   Cooze  73   3.0  70.0
6  Jason  Miller       4.0  25.0
7  Jason  Miller       4.0  25.0
8   Jake  Milner       2.0  62.0
9   Jake  Miller       4.0  25.0

相关问题更多 >

编程相关推荐

热门问题

热门文章