如何在包含分类和连续变量的数据集中找到并计算相关性?

2024-04-29 16:20:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究一个保险领域用例,以预测现有客户是否会购买第二份保险单。我有一些不同类别客户的个人详细信息,如婚姻状况、吸烟者(是或否)、年龄(年轻人、成年人、老年人)、性别(男性/女性),很少有连续变量,如保费支付、保险金额

我的目标是使用这个分类变量和连续变量的混合集并预测类(1-将购买第二个策略,0-将不购买第二个策略)。那么,我如何才能找到/计算该数据集中的相关性,并仅选择重要的相关性用于逻辑回归公式进行分类

如果有人能提供文章,链接到用Python完成的类似工作,我们将不胜感激


Tags: 客户分类详细信息用例类别策略领域性别
1条回答
网友
1楼 · 发布于 2024-04-29 16:20:37

对于这个问题,购买第二个策略更像是一个概率事件,而不是确定性事件。例如,您的客户A购买另一种保险的可能性,以及客户A不购买另一种保险的可能性

首先,你需要有一个假设。购买第二个保单是您的因变量(顾名思义,它将取决于其他变量的值);这是等式的Y。您认为哪些因素会导致客户获得另一项保单

根据您在保险领域的经验,您可能会说X岁以上的客户或Y年以上的客户来自性别Z等。这些是你的独立变量——方程的X

如果你真的想用Python来解决这个问题,请勾选https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares,但如果是我,我会从Excel开始,如果事情变得更复杂,请切换到Python

对于分类数据,您可以为它们指定值。。。例如,男性的性别为1,女性的性别为0。查看此链接以了解更多信息https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features

相关问题 更多 >