在上融化并过滤数据帧

X Y col_1 col_2 col_3 col_4 col_5 col_6 col_7 col_8 col_9 col_10 0 A 1 0 0 0 0 0 1 1 1 1 1 1 B 1 0 0 0 0 0 1 1 1 1 1 2 C 2 0 0 0 0 0 1 1 1 1 1 3 A 3 0 0 0 0 0 1 1 1 1 1

X Y variable value 0 A 1 col_1 0 1 B 1 col_1 0 2 C 2 col_1 0 3 A 3 col_1 0 4 A 1 col_2 0 5 B 1 col_2 0 6 C 2 col_2 0 7 A 3 col_2 0 8 A 1 col_3 0 9 B 1 col_3 0 10 C 2 col_3 0 11 A 3 col_3 0 12 A 1 col_4 0 13 B 1 col_4 0 14 C 2 col_4 0 15 A 3 col_4 0 16 A 1 col_5 0 17 B 1 col_5 0 18 C 2 col_5 0 19 A 3 col_5 0 20 A 1 col_6 1 21 B 1 col_6 1 22 C 2 col_6 1 23 A 3 col_6 1 24 A 1 col_7 1 25 B 1 col_7 1 26 C 2 col_7 1 27 A 3 col_7 1 28 A 1 col_8 1 29 B 1 col_8 1 30 C 2 col_8 1 31 A 3 col_8 1 32 A 1 col_9 1 33 B 1 col_9 1 34 C 2 col_9 1 35 A 3 col_9 1 36 A 1 col_10 1 37 B 1 col_10 1 38 C 2 col_10 1 39 A 3 col_10 1

1条回答

网友

1楼 · 发布于 2024-06-17 08:09:41

更新感谢@rafaelc的评论。我相信这个使用np.nonzero的解决方案的内存效率要高得多：

cols = df.columns[2:]
nonzeros = np.nonzero(df[cols].values)

# nonzeros consist of two arrays
# nonzeros[0] is the row coordinates of nonzero values
# nonzeros[1] is the col coordinates of nonzero values

# all we need is to extract rows at ['X','Y'] 
# and corresponding columns
# for each nonzero value:
pd.concat((df.loc[nonzeros[0], df.columns[:2]].reset_index(drop=True),
           df.columns[nonzeros[1]].to_frame().reset_index(drop=True)
          ),
          axis=1
         )

输出（值部分并不重要，因为它是1）：

    X   Y   0
0   A   1   col_4
1   A   1   col_5
2   A   1   col_6
3   A   1   col_7
4   A   1   col_8
5   B   1   col_4
6   B   1   col_5
7   B   1   col_6
8   B   1   col_7
9   B   1   col_8
10  C   2   col_4
11  C   2   col_5
12  C   2   col_6
13  C   2   col_7
14  C   2   col_8
15  A   3   col_4
16  A   3   col_5
17  A   3   col_6
18  A   3   col_7
19  A   3   col_8

相关问题更多 >

编程相关推荐

热门问题

热门文章