与Pandas的聚集和分组

Index CA# Duplicate? $ $$ 1 1101 True 440.4 880.80 2 1101 False 440.4 - 3 1102 True 440.8 440.80 4 1103 True 441.2 441.20 5 1106 True 442.4 1,327.20 6 1106 False 442.4 - 7 1106 False 442.4 -

import pandas as pd from pandas import DataFrame, Series import numpy as np file_name= ('A:\LEO\Documents\Mock data.xlsx') sheet_name= ('Sheet1') data = pd.read_excel(io= file_name, sheet= sheet_name) data.sort_values('CA#', inplace= True) data_ltd = DataFrame(data, columns=['CA#','$']) bool_series = data_ltd['CA'].duplicated() data_ltd ['bool_series'] = bool_series print(data_ltd[bool_series].head(10))

3条回答

网友

1楼 · 编辑于 2024-05-15 00:08:37

这应该可以实现Duplicated列的技巧：

df = pd.DataFrame({'CA#': [1101, 1101, 1102,1103, 1106, 1106, 1106]})
seen = set()
def already(x):
    global seen
    if x in seen:
        return False
    else:
        seen.add(x)
        return True

df['Duplicate'] = df['CA#'].apply(already)
df
#     CA#  Duplicate
# 0  1101       True
# 1  1101      False
# 2  1102       True
# 3  1103       True
# 4  1106       True
# 5  1106      False
# 6  1106      False

网友

2楼 · 编辑于 2024-05-15 00:08:37

使用^{}的倒数：

~df.duplicated('CA#')

0     True
1    False
2     True
3     True
4     True
5    False
6    False
dtype: bool

df['Duplicate?'] = ~df.duplicated('CA#')

    CA#  Duplicate?      $        $$
0  1101        True  440.4    880.80
1  1101       False  440.4         -
2  1102        True  440.8    440.80
3  1103        True  441.2    441.20
4  1106        True  442.4  1,327.20
5  1106       False  442.4         -
6  1106       False  442.4         -

要获取$$列，我们可以使用^{}和^{}：

df['$$'] = df.groupby('CA#')['$'].transform('sum')
df['$$'] = np.where(df['$$'].duplicated(), '-', df['$$'])

    CA#  Duplicate?      $                  $$
0  1101        True  440.4               880.8
1  1101       False  440.4                   -
2  1102        True  440.8               440.8
3  1103        True  441.2               441.2
4  1106        True  442.4  1327.1999999999998
5  1106       False  442.4                   -
6  1106       False  442.4                   -

网友

3楼 · 编辑于 2024-05-15 00:08:37

更新：命令序列会改变结果！这个序列对我有用：

#Start with sorting the values    
data_fr.sort_values(by='CA',ascending= True, inplace= True) 
#Identify duplicates    
data_fr['Unique Px']= ~data_fr.duplicated('CA') 
#Group and aggregate in a new column
data_fr['$$'] = data_fr.groupby('CA')['$'].transform('sum')

相关问题更多 >

编程相关推荐

热门问题

热门文章