2024-06-16 09:52:59 发布
网友
我有一个超过100列的数据帧,我正试图用它来建立一个模型。在这种情况下,此数据帧中的一列(A)被视为响应,而所有其他列(B、C、D等)都是预测器。因此,我尝试根据相关系数(比如,0.2)选择与列A相关的所有列。我已经生成了一个包含每对列之间所有相关因子的热图。但是,我能在pandas中有一个快速的方法将collrelation因子大于0.2的所有列(如果需要的话,我当然会调整)到列a吗?提前谢谢!在
使用DataFrame计算相关性,然后使用布尔掩码按截止条件对列进行切片。在
DataFrame
import pandas as pd df = pd.DataFrame({'A': [1,2,3,4,5,6,7,8,9,10], 'B': [1,2,4,3,5,7,6,8,10,11], 'C': [15,-1,17,-10,-10,-13,-99,-101,0,0], 'D': [0,10,0,0,-10,0,0,-10,0,10]} ) df.loc[:, df.corr()['A'] > 0.2] A B 0 1 1 1 2 2 2 3 4 3 4 3 4 5 5 5 6 7 6 7 6 7 8 8 8 9 10 9 10 11
使用
DataFrame
计算相关性,然后使用布尔掩码按截止条件对列进行切片。在相关问题 更多 >
编程相关推荐