寻找数值编码的分类变量之间的相关性?

2024-04-24 10:58:10 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我有一个有分类变量的数据集。我已经根据类别x的数量从0:x对每个类别进行了编码。我试图找到变量(数字和分类)与目标变量(也是分类变量,但编码为0表示否,1表示是)之间的相关性。在

我已经能够运行这段代码来计算所有变量(大约有17个)的相关性,它似乎确实有效,但我怀疑这些相关性是否正确。我以前没有计算过与数据集中分类变量的相关性,只是想确保我的方法是正确的:

print(df['previous'].corr(df['y']))
任何帮助都太好了!在


Tags: 数据方法代码目标编码df数量分类
2条回答

分类数据的相关模拟称为交叉表(您将得到数据的列联表)。您可以在pandas中使用pandas.crosstab来完成。在

在分类变量中寻找相关性的诀窍就是把它们弄混。虽然您的目标变量很好(因为它是二进制的),但是有多个类的分类变量需要被转储-

pd.get_dummies(df['Categorical_Column'])

完成后,从空列中删除一列,然后获得相关性。。。在

相关问题 更多 >