如何找到float64中一列的pandas dataframe和另一列is object(string)的两列之间的关联

2024-06-16 10:30:32 发布

您现在位置:Python中文网/ 问答频道 /正文

在我的情况下,它介于天空条件和能见度之间

Skycondition visibility
 CLR.                 10SM
SCT103.              7SM

Tags: 能见度情况条件天空visibilityclrskyconditionsct103
1条回答
网友
1楼 · 发布于 2024-06-16 10:30:32

因为你有一个名义变量,你不能真正计算相关性本身。然而,一种可能让你了解变量之间关系强度的方法是为它们定义虚拟变量并执行一系列多元线性回归。E、 g.假设您的数据在一个名为data的数据帧中,为了清晰起见,我稍微重新格式化了它:

       Skycond   Vis
    0      CLR  10SM
    1   SCT103    7S

然后生成虚拟变量:

^{pr2}$

最后拟合线性回归模型。这里我选择将Skycond_CLR与可见性变量进行比较:

from sklearn.preprocessing import LinearRegression

model.fit(demo[list(demo.columns[2:])],
          demo[demo.columns[0]])

print("Model slope:    ", model.coef_)
print("Model intercept:", model.intercept_)

它给出了:

Model slope:     [-0.33333333  0.33333333 -0.33333333]
Model intercept: 0.6666666666666666

当然,对于两个样本,回归并不能告诉你太多。当你添加更多的数据时,梯度系数将开始指示与所选因变量的某种关系,这可以解释为相关性的替代项。在

相关问题 更多 >