如何选择与datafram中的一个特定列高度相关的列

2024-06-16 09:52:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个超过100列的数据帧,我正试图用它来建立一个模型。在这种情况下,此数据帧中的一列(A)被视为响应,而所有其他列(B、C、D等)都是预测器。因此,我尝试根据相关系数(比如,0.2)选择与列A相关的所有列。我已经生成了一个包含每对列之间所有相关因子的热图。但是,我能在pandas中有一个快速的方法将collrelation因子大于0.2的所有列(如果需要的话,我当然会调整)到列a吗?提前谢谢!在


Tags: 数据方法模型pandas情况因子热图预测器
1条回答
网友
1楼 · 发布于 2024-06-16 09:52:59

使用DataFrame计算相关性,然后使用布尔掩码按截止条件对列进行切片。在

import pandas as pd
df = pd.DataFrame({'A': [1,2,3,4,5,6,7,8,9,10],
                   'B': [1,2,4,3,5,7,6,8,10,11], 
                   'C': [15,-1,17,-10,-10,-13,-99,-101,0,0],
                   'D': [0,10,0,0,-10,0,0,-10,0,10]} )

df.loc[:, df.corr()['A'] > 0.2]

    A   B
0   1   1
1   2   2
2   3   4
3   4   3
4   5   5
5   6   7
6   7   6
7   8   8
8   9   10
9   10  11

相关问题 更多 >