有条件地提取重复项的Python代码

students = [('exp', 'A', 1), ('exp', 'B', 2), ('exp', 'B', 3), ('exp', 'C', 4), ('control', 'A', 5), ('control', 'A', 6), ('exp', 'D', 7), ('control', 'D', 8) ] import pandas as pd student_df = pd.DataFrame(students, columns=['group', 'id', 'performance'])

2条回答

网友

1楼 · 编辑于 2024-04-23 20:52:38

试试这个。基于示例数据列group只有2个值exp和control：

df_out = student_df.groupby('id').filter(lambda x: x.group.nunique() > 1)

Out[570]:
     group id  performance
0      exp  A            1
4  control  A            5
5  control  A            6
6      exp  D            7
7  control  D            8

网友

2楼 · 编辑于 2024-04-23 20:52:38

为了提高效率，请使用transform和布尔索引，而不是使用lambda和filter：

student_df[student_df.groupby('id')['group'].transform('nunique')>1]

输出：

     group id  performance
0      exp  A            1
4  control  A            5
5  control  A            6
6      exp  D            7
7  control  D            8

时间安排：

%timeit student_df.groupby('id').filter(lambda x: x.group.nunique() > 1)
5.29 ms ± 165 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit student_df[student_df.groupby('id')['group'].transform('nunique')>1]
3.01 ms ± 113 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

相关问题更多 >

编程相关推荐

热门问题

热门文章

有条件地提取重复项的Python代码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >