Pandas分组,然后使用多列合并

2024-04-26 12:33:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Pandas还很陌生,但我正在尝试分析员工时间戳的数据集,以确定每周唯一的每日时间戳的总和。你知道吗

我的初始数据帧(input1)如下所示(但要长得多):

            ID          Datetime        Week/Year
0          15.0    2019-02-04 08:28:44   6/2019
1          15.0    2019-02-04 12:48:05   6/2019
2          15.0    2019-02-04 12:54:29   6/2019
3          15.0    2019-02-05 08:05:51   6/2019
4          15.0    2019-02-05 12:47:26   6/2019
5          15.0    2019-02-05 14:45:34   6/2019
6          15.0    2019-02-06 08:10:59   6/2019
7          15.0    2019-02-06 12:49:24   6/2019
8          15.0    2019-02-06 13:02:48   6/2019
9          15.0    2019-02-07 08:02:22   6/2019
10         15.0    2019-02-08 08:02:10   6/2019
11         15.0    2019-02-08 09:55:22   6/2019

我创建了另一个数据帧:

df = pd.DataFrame({'Timestamp':  input1['Datetime'], 'ID': input1['ID'], 'Week/Year': input1['Week/Year'],'MDY':input1['Server Date/Time'].apply(lambda x: "%d/%d/%d" % (x.month, x.day, x.year))})

然后我按周、雇员分组,得到每天唯一计数(MDY):

df_grouped = df.groupby(['Week/Year', 'ID']).MDY.nunique()

Week/Year   ID    MDY 
6/2019      15.0   5

我想要的最终结果是通过加入on Week和ID将MDY和合并回初始数据帧-我尝试了几种不同的方法:

input1.merge(df_grouped.to_frame(), left_on=['ID','Week/Year'], right_index=True)

得到类似于:

           ID          Datetime        Week/Year    MDY
0          15.0    2019-02-04 08:28:44   6/2019    5
1          15.0    2019-02-04 12:48:05   6/2019    5
2          15.0    2019-02-04 12:54:29   6/2019    5
3          15.0    2019-02-05 08:05:51   6/2019    5
4          15.0    2019-02-05 12:47:26   6/2019    5
5          15.0    2019-02-05 14:45:34   6/2019    5

加入之后,我就把NaN弄得面目全非了。有人能把我引向正确的方向吗?你知道吗

谢谢。你知道吗


Tags: 数据idpandasdfdatetimeon时间员工
1条回答
网友
1楼 · 发布于 2024-04-26 12:33:38

这个groupby

df_grouped = df.groupby(['Week/Year', 'WD: Employee ID']).MDY.nunique()

应该返回一个序列,其索引为Week/Year WD: Employee ID

Week/Year   WD: Employee ID
6/2019      15.0   5
Name: MDY , dtype: int64

但是,它的索引显示为Week/Year ID。您可以检查列名以确保其匹配。你知道吗

下一个,关于这个

input1.merge(df_grouped.to_frame(), left_on=['ID','Week/Year'], right_index=True)

假设df_grouped有索引,如您在示例Week/Year ID中所示,您对left_on的顺序错误。应该是的

input1.merge(df_grouped.to_frame(), left_on=['Week/Year', 'ID'], right_index=True)

相关问题 更多 >