删除重复数据帧

2024-04-25 13:03:24 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个数据框，我想把所有的“小时”（列标题）加起来，在1“管理器”（列标题）下的每个“名称”（列标题）加起来。然后，我想在根据总小时数和对数据帧排序之前删除所有重复项，并逐行打印出来。然而，我不断得到重复的经理逐行打印出来？你知道吗

|---------------------|------------------|---------------------|------------------|
|      Department     |     Name         | Manager             | Hours            | 
|---------------------|------------------|---------------------|------------------|
|   Department name   |     person Name  | Manager Name        |no of hours       |
|---------------------|------------------|---------------------|------------------|

def total_group(csv_file):
    df = pd.read_csv(csv_file)
    df['Total Hours'] = df.groupby(['Manager'])['Hours'].transform('sum')
    new_df = df.drop_duplicates(subset=['Department', 'name', 'Manager']).sort_values('Total Hours')
    for index, row in new_df.iterrows():
        manager_value = row['Manager']
        total_hours = row['Total Hours']
        print("manager: {}, has: {} Total hours".format(manager_value, total_hours))


print(total_group(csv_file))

数据帧打印

df1 = df['Total Hours'] = df.groupby(['Direct Manager'])['Labor Hours'].transform('sum')
    print(df1)

结果

0        450.0
1        450.0
2        450.0
3        450.0
4        450.0
         ...  
43929    320.5
43930    320.5
43931    320.5
43932    320.5
43933    320.5
Name: Hours, Length: 43934, dtype: float64

新数据帧打印：

new_df = df.drop_duplicates(subset=['Department', 'Direct Manager']).sort_values('Total Hours')
    print(new_df)

结果：

                     Department              Name                Hours                   Total Hours
9554             Europe                     Dri, Bas ...         8.0                        72.000000
34498           Product & Design    Sun, Sunn  ...     5.0                        81.000000
19140           Product & Design    Oers, Len  ...      8.0                        122.000000

我想要的是这样的数据帧：

                     Department              Manager                                Total Hours
9554             Europe                     Last, First ...                             72.000000
34498           Product                    Last, first  ...                         81.000000
19140           Design                     Last, First  ...                          122.000000

Tags： csv 数据 name 标题 df new manager file

1条回答

网友

1楼 · 发布于 2024-04-25 13:03:24

你想试试这个吗

df.groupby('Manager').agg({'Hours':['sum','count']}).sort_values(('Hours','sum'), ascending=False)

删除重复数据帧

相关问题更多 >

编程相关推荐

热门问题

热门文章

删除重复数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >