如何在方法链接表达式中基于其他列的值替换数据子集中的值

df['grp'] = df.class_size df.loc[df.class_size > 5, 'grp'] = '> 5' df class_size num_classes grp 0 1 100 1 1 2 80 2 2 3 50 3 3 4 20 4 4 5 10 5 5 6 2 > 5 6 7 1 > 5 7 8 1 > 5 8 9 0 > 5 9 10 0 > 5

df.groupby('grp').agg( class_sizes_nunique = ('class_size', 'nunique'), num_classes = ('num_classes', 'sum'), ) class_sizes_nunique num_classes grp 1 1 100 2 1 80 3 1 50 4 1 20 5 1 10 > 5 5 4

( df. assign(grp = lambda x: x.class_size if x.class_size > 5 else x.class_size). groupby('grp').agg( class_sizes_nunique = ('class_size', 'nunique'), num_classes = ('num_classes', 'sum'), ) )

( df. assign(grp = lambda x: x.class_size.apply(lambda y: '> 5' if y > 5 else y)). groupby('grp').agg( class_sizes_nunique = ('class_size', 'nunique'), num_classes = ('num_classes', 'sum'), ) )

2条回答

网友

1楼 · 编辑于 2024-04-18 11:15:42

您可以group by一个函数，这样就不需要辅助列：

If by is a function, it’s called on each value of the object’s index

df.set_index('class_size', drop=False).groupby(lambda x: x if x <= 5 else '>5').agg(
        class_sizes_nunique = ('class_size', 'nunique'), 
        num_classes = ('num_classes', 'sum'))

结果：

    class_sizes_nunique  num_classes
1                     1          100
2                     1           80
3                     1           50
4                     1           40
5                     1           38
>5                    5            4

网友

2楼 · 编辑于 2024-04-18 11:15:42

我们可以使用^{}：

new_df = (df.assign(grp = df['class_size'].mask(df['class_size'].gt(5),'>5'))
            .groupby('grp').agg(class_sizes_nunique = ('class_size', 'nunique'), 
                                num_classes = ('num_classes', 'sum')
                               )
         )
print(new_df)

输出

     class_sizes_nunique  num_classes
grp                                  
1                      1          100
2                      1           80
3                      1           50
4                      1           40
5                      1           38
>5                     5            4

我们也可以使用^{}：

df.assign(grp = df['class_size'].where(df['class_size'].le(5),'>5'))

相关问题更多 >

编程相关推荐

热门问题

热门文章