用Groupby标识Pandas数据框中的连续相同值

data={'id':[1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2], 'value':[2,2,3,2,2,2,3,3,3,3,1,4,1,1,1,4,4,1,1,1,1,1]} df=pd.DataFrame.from_dict(data) df Out[8]: id value 0 1 2 1 1 2 2 1 3 3 1 2 4 1 2 5 1 2 6 1 3 7 1 3 8 1 3 9 1 3 10 2 1 11 2 4 12 2 1 13 2 1 14 2 1 15 2 4 16 2 4 17 2 1 18 2 1 19 2 1 20 2 1 21 2 1

df Out[12]: id value flag 0 1 2 0 1 1 2 0 2 1 3 0 3 1 2 1 4 1 2 1 5 1 2 1 6 1 3 1 7 1 3 1 8 1 3 1 9 1 3 1 10 2 1 0 11 2 4 0 12 2 1 1 13 2 1 1 14 2 1 1 15 2 4 0 16 2 4 0 17 2 1 1 18 2 1 1 19 2 1 1 20 2 1 1 21 2 1 1

test Out[61]: id value rma flag 0 1 2 NaN 0 1 1 2 NaN 0 2 1 3 2.333333 0 3 1 2 2.333333 0 4 1 2 2.333333 0 5 1 2 2.000000 1 6 1 3 2.333333 0 7 1 3 2.666667 0 8 1 3 3.000000 1 9 1 3 3.000000 1 10 2 1 NaN 0 11 2 4 NaN 0 12 2 1 2.000000 0 13 2 1 2.000000 0 14 2 1 1.000000 1 15 2 4 2.000000 0 16 2 4 3.000000 0 17 2 1 3.000000 0 18 2 1 2.000000 0 19 2 1 1.000000 1 20 2 1 1.000000 1 21 2 1 1.000000 1

0条回答

网友

1楼 · 发布于 2024-05-21 01:19:49

您可以尝试这样做；1）使用df.value.diff().ne(0).cumsum()创建一个额外的组变量来表示值的更改；2）使用transform('size')来计算组大小并与三个值进行比较，然后得到所需的flag列：

df['flag'] = df.value.groupby([df.id, df.value.diff().ne(0).cumsum()]).transform('size').ge(3).astype(int) 
df

故障：

1）diff不等于0（字面上是df.value.diff().ne(0)的意思）在值发生变化时给出条件True：

df.value.diff().ne(0)
#0      True
#1     False
#2      True
#3      True
#4     False
#5     False
#6      True
#7     False
#8     False
#9     False
#10     True
#11     True
#12     True
#13    False
#14    False
#15     True
#16    False
#17     True
#18    False
#19    False
#20    False
#21    False
#Name: value, dtype: bool

2）然后cumsum给出一个id的非降序序列，其中每个id表示具有相同值的连续块，注意当对布尔值求和时，True被视为一，而False被视为零：

df.value.diff().ne(0).cumsum()
#0     1
#1     1
#2     2
#3     3
#4     3
#5     3
#6     4
#7     4
#8     4
#9     4
#10    5
#11    6
#12    7
#13    7
#14    7
#15    8
#16    8
#17    9
#18    9
#19    9
#20    9
#21    9
#Name: value, dtype: int64

3）结合id列，可以对数据帧进行分组，计算分组大小，得到flag列。

网友

2楼 · 发布于 2024-05-21 01:19:49

有关更可靠的解决方案，请参阅EDIT2

同样的结果，但速度要快一点：

labels = (df.value != df.value.shift()).cumsum()
df['flag'] = (labels.map(labels.value_counts()) >= 3).astype(int)

    id  value  flag
0    1      2     0
1    1      2     0
2    1      3     0
3    1      2     1
4    1      2     1
5    1      2     1
6    1      3     1
7    1      3     1
8    1      3     1
9    1      3     1
10   2      1     0
11   2      4     0
12   2      1     1
13   2      1     1
14   2      1     1
15   2      4     0
16   2      4     0
17   2      1     1
18   2      1     1
19   2      1     1
20   2      1     1
21   2      1     1

其中：

df.value != df.value.shift()给出值的变化
cumsum()为每个值相同的组创建“标签”
labels.value_counts()统计每个标签的出现次数
labels.map(...)用上面计算的计数替换标签
>= 3在计数值上创建布尔掩码
astype(int)将布尔值转换为int

在我的手中，你的df值是1.03毫秒，而灵能症治疗的df值是2.1毫秒。但我的不是一艘班轮。

编辑：

两种方法的混合甚至更快

labels = df.value.diff().ne(0).cumsum()
df['flag'] = (labels.map(labels.value_counts()) >= 3).astype(int)

提供911微秒的样品测向。

EDIT2:正确的解决方案来解释id更改，如@clg4所示

labels = (df.value.diff().ne(0) | df.id.diff().ne(0)).cumsum()
df['flag'] = (labels.map(labels.value_counts()) >= 3).astype(int)

其中... | df.id.diff().ne(0)增加id更改的标签

即使在id更改时使用相同的值（在索引10中使用值3进行测试），也可以使用1.28ms

EDIT3：更好的解释

以索引10的值为3的情况为例。df.id.diff().ne(0)

data={'id':[1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2],
      'value':[2,2,3,2,2,2,3,3,3,3,3,4,1,1,1,4,4,1,1,1,1,1]}
df=pd.DataFrame.from_dict(data)

df['id_diff'] = df.id.diff().ne(0).astype(int)
df['val_diff'] = df.value.diff().ne(0).astype(int)
df['diff_or'] = (df.id.diff().ne(0) | df.value.diff().ne(0)).astype(int)
df['labels'] = df['diff_or'].cumsum()

     id  value  id_diff  val_diff  diff_or  labels
 0    1      2        1         1        1       1
 1    1      2        0         0        0       1
 2    1      3        0         1        1       2
 3    1      2        0         1        1       3
 4    1      2        0         0        0       3
 5    1      2        0         0        0       3
 6    1      3        0         1        1       4
 7    1      3        0         0        0       4
 8    1      3        0         0        0       4
 9    1      3        0         0        0       4
>10   2      3        1    |    0    =   1       5 <== label increment
 11   2      4        0         1        1       6
 12   2      1        0         1        1       7
 13   2      1        0         0        0       7
 14   2      1        0         0        0       7
 15   2      4        0         1        1       8
 16   2      4        0         0        0       8
 17   2      1        0         1        1       9
 18   2      1        0         0        0       9
 19   2      1        0         0        0       9
 20   2      1        0         0        0       9
 21   2      1        0         0        0       9

|是运算符“按位或”，只要其中一个元素是True，它就给出True。因此，如果id更改的值中没有diff，则|反映id更改。否则什么也改变不了。当执行.cumsum()时，如果id发生变化，标签将递增，因此索引10处的值3不会与索引6-9中的值3分组。

网友

3楼 · 发布于 2024-05-21 01:19:49

#try this simpler version
a= pd.Series([1,1,1,2,3,4,5,5,5,7,8,0,0,0])
b= a.groupby([a.ne(0), a]).transform('size').ge(3).astype('int')
#ge(x) <- x is the number of consecutive repeated values 
print b

相关问题更多 >

编程相关推荐

热门问题

热门文章