2024-04-24 10:58:10 发布
网友
所以我有一个有分类变量的数据集。我已经根据类别x的数量从0:x对每个类别进行了编码。我试图找到变量(数字和分类)与目标变量(也是分类变量,但编码为0表示否,1表示是)之间的相关性。在
我已经能够运行这段代码来计算所有变量(大约有17个)的相关性,它似乎确实有效,但我怀疑这些相关性是否正确。我以前没有计算过与数据集中分类变量的相关性,只是想确保我的方法是正确的:
print(df['previous'].corr(df['y']))
分类数据的相关模拟称为交叉表(您将得到数据的列联表)。您可以在pandas中使用pandas.crosstab来完成。在
在分类变量中寻找相关性的诀窍就是把它们弄混。虽然您的目标变量很好(因为它是二进制的),但是有多个类的分类变量需要被转储-
pd.get_dummies(df['Categorical_Column'])
完成后,从空列中删除一列,然后获得相关性。。。在
分类数据的相关模拟称为交叉表(您将得到数据的列联表)。您可以在pandas中使用pandas.crosstab来完成。在
在分类变量中寻找相关性的诀窍就是把它们弄混。虽然您的目标变量很好(因为它是二进制的),但是有多个类的分类变量需要被转储-
完成后,从空列中删除一列,然后获得相关性。。。在
相关问题 更多 >
编程相关推荐