以Pandas为单位聚合行重复（运行长度）

var1 var2 timestamp foo 2 2017-01-01 00:07:45 foo 2 2017-01-01 00:13:42 foo 3 2017-01-01 00:19:41 bar 3 2017-01-01 00:25:41 bar 2 2017-01-01 00:37:36 bar 2 2017-01-01 00:43:37 foo 2 2017-01-01 01:01:29 foo 2 2017-01-01 01:01:34 bar 2 2017-01-01 01:19:25 bar 2 2017-01-01 01:25:22

expected_output var1 var2 min max foo 2 2017-01-01 00:07:45 2017-01-01 00:19:41 foo 3 2017-01-01 00:19:41 2017-01-01 00:25:41 bar 3 2017-01-01 00:25:41 2017-01-01 00:37:36 bar 2 2017-01-01 00:37:36 2017-01-01 01:01:29 foo 2 2017-01-01 01:01:29 2017-01-01 01:19:25 bar 2 2017-01-01 01:25:22 None

output = test.groupby(['var1','var2'])['timestamp'].agg(['min','max']).reset_index() output var1 var2 min max bar 2 2017-01-01 00:37:36 2017-01-01 01:25:22 bar 3 2017-01-01 00:25:41 2017-01-01 00:25:41 foo 2 2017-01-01 00:07:45 2017-01-01 01:01:34 foo 3 2017-01-01 00:19:41 2017-01-01 00:19:41

1条回答

网友

1楼 · 发布于 2024-05-16 22:10:59

对于连续分组，您可以在(df.col != df.col.shift()).cumsum()上分组

您希望将其用于任一列，以便可以将它们|放在一起

>>> ((df.var1 != df.var1.shift()) | (df.var2 != df.var2.shift())).cumsum()
0    1
1    1
2    2
3    3
4    4
5    4
6    5
7    5
8    6
9    6
dtype: int64

groupby+agg

>>> cond = ((df.var1 != df.var1.shift()) | (df.var2 != df.var2.shift())).cumsum()
>>> output = df.groupby(cond).agg(
...     var1=('var1', 'first'),
...     var2=('var2', 'first'),
...     min=('timestamp', 'min'),
...     max=('timestamp', 'max')
... )
>>> output
  var1  var2                  min                  max
1  foo     2  2017-01-01 00:07:45  2017-01-01 00:13:42
2  foo     3  2017-01-01 00:19:41  2017-01-01 00:19:41
3  bar     3  2017-01-01 00:25:41  2017-01-01 00:25:41
4  bar     2  2017-01-01 00:37:36  2017-01-01 00:43:37
5  foo     2  2017-01-01 01:01:29  2017-01-01 01:01:34
6  bar     2  2017-01-01 01:19:25  2017-01-01 01:25:22

然后可以将最大值设置为下一行的最小值：

>>> output['max'] = output['min'].shift(-1)
>>> output
  var1  var2                  min                  max
1  foo     2  2017-01-01 00:07:45  2017-01-01 00:19:41
2  foo     3  2017-01-01 00:19:41  2017-01-01 00:25:41
3  bar     3  2017-01-01 00:25:41  2017-01-01 00:37:36
4  bar     2  2017-01-01 00:37:36  2017-01-01 01:01:29
5  foo     2  2017-01-01 01:01:29  2017-01-01 01:19:25
6  bar     2  2017-01-01 01:19:25                  NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章