pandas groupby 后缺失列

11 投票

1 回答

14100 浏览

提问于 2025-04-18 11:21

我有一个叫做 df 的 pandas 数据框。我根据三列进行分组，然后统计结果。这样做的时候，我丢失了一些信息，特别是 name 这一列。这个列和 desk_id 列是一一对应的。有没有办法把这两列都包含在我的最终数据框里呢？

这是我的数据框：

   shift_id    shift_start_time      shift_end_time        name                   end_time       desk_id  shift_hour
0  37423064 2014-01-17 08:00:00 2014-01-17 12:00:00  Adam Scott 2014-01-17 10:16:41.040000  15557987           2
1  37423064 2014-01-17 08:00:00 2014-01-17 12:00:00  Adam Scott 2014-01-17 10:16:41.096000  15557987           2
2  37423064 2014-01-17 08:00:00 2014-01-17 12:00:00  Adam Scott 2014-01-17 10:52:17.402000  15557987           2
3  37423064 2014-01-17 08:00:00 2014-01-17 12:00:00  Adam Scott 2014-01-17 11:06:59.083000  15557987           3
4  37423064 2014-01-17 08:00:00 2014-01-17 12:00:00  Adam Scott 2014-01-17 08:27:57.998000  15557987           0

我这样进行分组：

grouped = df.groupby(['desk_id', 'shift_id', 'shift_hour']).size()
grouped = grouped.reset_index()

这是结果，但缺少了 name 这一列。

    desk_id  shift_id  shift_hour  0
0  14468690  37729081           0  7
1  14468690  37729081           1  3
2  14468690  37729081           2  6
3  14468690  37729081           3  5
4  14468690  37729082           0  5

另外，有没有办法把计数这一列的名字改成 'count' 而不是 '0' 呢？

groupby pandas dataframe data aggregation column renaming missing values

1 个回答

你需要在分组时把 'name' 加入到 groupby 中：

In [43]:

grouped = df.groupby(['desk_id', 'shift_id', 'shift_hour', 'name']).size()
grouped = grouped.reset_index()
grouped.columns=np.where(grouped.columns==0, 'count', grouped.columns) #replace the default 0 to 'count'
print grouped
    desk_id  shift_id  shift_hour        name  count
0  15557987  37423064           0  Adam Scott      1
1  15557987  37423064           2  Adam Scott      3
2  15557987  37423064           3  Adam Scott      1

如果名字和ID之间的关系是多对一的，比如说在同一组数据中有多个叫做 pete scott 的人，那么结果会变成：

    desk_id  shift_id  shift_hour        name  count
0  15557987  37423064           0  Adam Scott      1
1  15557987  37423064           0  Pete Scott      1
2  15557987  37423064           2  Adam Scott      3
3  15557987  37423064           2  Pete Scott      3
4  15557987  37423064           3  Adam Scott      1
5  15557987  37423064           3  Pete Scott      1

回答于 2025-04-18 由 Python大师

分享举报

pandas groupby 后缺失列

1 个回答

撰写回答