在pandas dataframe上使用Groupby，并根据列中值的频率用逗号连接字符串

mytable = pd.DataFrame({'user_id': [ '3c', '3c', '3c', '3c','3c', '3c', '3c', '3c', '3c', '3c', '3c', '3c', '3c', '3d', '3d', '3d', '3d', '3e', '3e', '3r', '3w', '3w', '3w', '3w'], 'meet_id': [1,1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,4,5,6,1,2,1,1], 'text': ['abc', 'abc', 'abc', 'abc', 'abc', 'abc', 'abc', 'xyz', 'xyz', 'xyz', 'xyz', 'xyz', 'xyz', 'npq', 'npq', 'npq', 'npq', 'tt', 'op', 'li', 'abc', 'xyz', 'abc', 'abc'], 'label': ['A', 'A', 'A', 'A', 'A','B', 'B', 'B', 'B', 'B', 'C', 'C', 'A', 'G', 'H', 'H', 'H', 'A', 'A', 'B', 'E', 'G', 'B', 'B']}) mytable = mytable[['user_id', 'meet_id', 'text', 'label']] # ordering columns in the way I would like to be printed out. user_id meet_id text label 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc B 3c 1 abc B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz C 3c 2 xyz C 3c 2 xyz A 3d 3 npq G 3d 3 npq H 3d 3 npq H 3d 3 npq H 3e 4 tt A 3e 5 op A 3r 6 li B 3w 1 abc E 3w 2 xyz G 3w 1 abc B 3w 1 abc B

user_id meet_id text label 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc B,A 3c 1 abc B,A 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B, C 3c 2 xyz B, C 3c 2 xyz A,B,C 3d 3 npq H,G 3d 3 npq H 3d 3 npq H 3d 3 npq H 3e 4 tt A 3e 5 op A 3r 6 li B 3w 1 abc E,B 3w 2 xyz G 3w 1 abc B 3w 1 abc B

user_id meet_id text label 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A, B 3c 1 abc A, B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B, C 3c 2 xyz B, C 3c 2 xyz B, C, A 3d 3 npq H, G 3d 3 npq H 3d 3 npq H 3d 3 npq H 3e 4 tt A 3e 5 op A 3r 6 li B 3w 1 abc A, B, E 3w 2 xyz B, C, A, G 3w 1 abc A, B 3w 1 abc A, B

3条回答

网友

1楼 · 编辑于 2024-05-14 22:03:30

编辑：好吧，更简单的解决方案：

mytable['label'] = mytable.groupby(['user_id','meet_id','text'])['label']\
       .apply(lambda x: x.cumsum()).apply(lambda x: sorted(set(x)))

我丑陋的尝试：

^{pr2}$

输出：

   user_id  meet_id text      label
0       3c        1  abc        [A]
1       3c        1  abc        [A]
2       3c        1  abc        [A]
3       3c        1  abc        [A]
4       3c        1  abc        [A]
5       3c        1  abc     [A, B]
6       3c        1  abc     [A, B]
7       3c        2  xyz        [B]
8       3c        2  xyz        [B]
9       3c        2  xyz        [B]
10      3c        2  xyz     [B, C]
11      3c        2  xyz     [B, C]
12      3c        2  xyz  [A, B, C]

网友

2楼 · 编辑于 2024-05-14 22:03:30

您可以尝试以下方法：

mytable['label'] = (mytable.groupby('meet_id')
                    .label.transform(lambda x: list(x.cumsum()))
                    .apply(set))

>>> mytable
   user_id  meet_id text      label
0       3c        1  abc        {A}
1       3c        1  abc        {A}
2       3c        1  abc        {A}
3       3c        1  abc        {A}
4       3c        1  abc        {A}
5       3c        1  abc     {A, B}
6       3c        1  abc     {A, B}
7       3c        2  xyz        {B}
8       3c        2  xyz        {B}
9       3c        2  xyz        {B}
10      3c        2  xyz     {C, B}
11      3c        2  xyz     {C, B}
12      3c        2  xyz  {C, B, A}

如果您想去掉set数据类型，并将其作为字符串（如您所需的输出中所示），则可以应用', '.join(sorted(set(x))))，而不是简单地set（谢谢@Wen和@ScottBoston）：

^{pr2}$

网友

3楼 · 编辑于 2024-05-14 22:03:30

`value_counts`和{}

value_counts按递减计数排序

cols = ['meet_id', 'user_id']
s = mytable.groupby(cols).label.value_counts().groupby(cols).apply(
    lambda d: d.index.to_series().str[-1].cumsum().str.join(', ')
)

mytable.assign(label=[s.get((a, b, c)) for a, b, c in mytable[cols + ['label']].values])

   user_id  meet_id text    label
0       3c        1  abc        A
1       3c        1  abc        A
2       3c        1  abc        A
3       3c        1  abc        A
4       3c        1  abc        A
5       3c        1  abc     A, B
6       3c        1  abc     A, B
7       3c        2  xyz        B
8       3c        2  xyz        B
9       3c        2  xyz        B
10      3c        2  xyz     B, C
11      3c        2  xyz     B, C
12      3c        2  xyz  B, C, A
13      3d        3  npq     H, G
14      3d        3  npq        H
15      3d        3  npq        H
16      3d        3  npq        H
17      3e        4   tt        A
18      3e        5   op        A
19      3r        6   li        B
20      3w        1  abc     B, E
21      3w        2  xyz        G
22      3w        1  abc        B
23      3w        1  abc        B

也包括`sorted`

^{pr2}$

调整单词而不是单个字符

cols = ['meet_id', 'user_id']
s = mytable.groupby(cols).label.value_counts().groupby(cols).apply(
    lambda d: d.index.to_series().str[-1].add('|').cumsum().apply(
        lambda e: ', '.join(sorted(e.strip('|').split('|')))
    )
)

mytable.assign(label=[s.get((a, b, c)) for a, b, c in mytable[cols + ['label']].values])

旧答案

使用transform和自定义的累积唯一函数

from collections import Counter

def cum_unique(x):
    return pd.Series(list(map(
        Counter, x
    ))).cumsum().str.join(', ')

mytable.assign(label=mytable.groupby('meet_id').label.transform(cum_unique))

   user_id  meet_id text    label
0       3c        1  abc        A
1       3c        1  abc        A
2       3c        1  abc        A
3       3c        1  abc        A
4       3c        1  abc        A
5       3c        1  abc     A, B
6       3c        1  abc     A, B
7       3c        2  xyz        B
8       3c        2  xyz        B
9       3c        2  xyz        B
10      3c        2  xyz     B, C
11      3c        2  xyz     B, C
12      3c        2  xyz  B, C, A

缩短版

mytable.assign(label=mytable.groupby('meet_id').label.transform(
    lambda x: pd.Series(list(map(Counter, x))).cumsum().str.join(', ')
))

每个评论

由liliscent

我们可以先按meet_id和组大小排序

sizes = mytable.groupby(['meet_id', 'label']).label.transform('size')

m1 = mytable.assign(sizes=sizes).sort_values(
    ['meet_id', 'sizes'], ascending=[True, False]).drop('sizes', 1)
m1

m1.assign(label=m1.groupby('meet_id').label.transform(
    lambda x: pd.Series(list(map(Counter, x))).cumsum().str.join(', ')
)).reindex(mytable.index)

编辑：好吧，更简单的解决方案：

`value_counts`和{}

也包括`sorted`

旧答案

相关问题更多 >

编程相关推荐

热门问题

热门文章