在数据帧中使用groupby时，如何保留所有数据字段？

repository developer commits adds deletes first_commit_week last_commit_week repo1 dev1 1 57 12 2021-01-10 2021-01-10 repo1 dev2 5 71 58 2020-08-23 2020-09-27 repo1 dev3 10 107 16 2020-08-09 2020-10-18 repo2 dev1 25 712 1184 2020-06-28 2020-12-13 repo2 dev3 51 1141 236 2021-01-10 2021-05-09 repo2 dev4 4 9 7 2021-01-10 2021-05-09 repo2 dev5 10 121 242 2020-08-09 2021-02-07 repo2 dev6 75 4319 8881 2020-07-19 2021-04-25 repo3 dev1 21 3008 6391 2019-09-08 2021-05-09 repo3 dev3 5 51 70 2019-09-08 2021-04-25 repo3 dev6 1 14 1 2020-06-28 2020-06-28

commits adds deletes repository developer repo1 dev1 1 57 12 dev2 5 71 58 dev3 10 107 16 repo2 dev1 25 712 1184 dev3 51 1141 236 dev4 4 9 7 dev5 10 121 242 dev6 75 4319 8881 repo3 dev1 21 3008 6391 dev3 5 51 70 dev6 1 14 1

2条回答

网友

1楼 · 编辑于 2024-06-06 00:01:27

stats_df.groupby(["repository", "developer"]).agg({
    'commits':'sum',
    'adds':'sum',
    'deletes':'sum',
    'first_commit_week':'first',
    'last_commit_week':'last'
})

输出

                     commits. adds  deletes first_commit_week   last_commit_week
repository  developer                   
repo1   dev1          1     57      12      2021-01-10      2021-01-10
        dev2          5     71      58      2020-08-23      2020-09-27
        dev3          10    107     16      2020-08-09  2020-10-18
repo2   dev1          25    712     1184    2020-06-28  2020-12-13
        dev3          51    1141    236     2021-01-10  2021-05-09
        dev4          4     9       7       2021-01-10  2021-05-09
        dev5          10    121     242     2020-08-09  2021-02-07
        dev6          75    4319    8881    2020-07-19  2021-04-25
repo3   dev1          21    3008    6391    2019-09-08  2021-05-09
        dev3           5    51      70      2019-09-08  2021-04-25
        dev6           1    14      1       2020-06-28  2020-06-28

网友

2楼 · 编辑于 2024-06-06 00:01:27

您的数据从来没有超过一对（repo、dev），所以我想知道您是否真的想做sum，或者您只是因为groupby需要一个聚合函数才使用它。如果您真的不需要sum，那么您可以使用标识函数作为聚合函数，这适用于所有列，包括日期：

In [14]: stats_df.groupby(['repository', 'developer']).agg(lambda x: x)
Out[14]: 
                      commits  adds  deletes first_commit_week last_commit_week
repository developer                                                           
repo1      dev1             1    57       12        2021-01-10       2021-01-10
           dev2             5    71       58        2020-08-23       2020-09-27
           dev3            10   107       16        2020-08-09       2020-10-18
repo2      dev1            25   712     1184        2020-06-28       2020-12-13
           dev3            51  1141      236        2021-01-10       2021-05-09
           dev4             4     9        7        2021-01-10       2021-05-09
           dev5            10   121      242        2020-08-09       2021-02-07
           dev6            75  4319     8881        2020-07-19       2021-04-25
repo3      dev1            21  3008     6391        2019-09-08       2021-05-09
           dev3             5    51       70        2019-09-08       2021-04-25
           dev6             1    14        1        2020-06-28       2020-06-28

相关问题更多 >

编程相关推荐

热门问题

热门文章