如何在包含分类和连续变量的数据集中找到并计算相关性？ - 问答 - Python中文网

如何在包含分类和连续变量的数据集中找到并计算相关性？

2024-04-29 16:20:37 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在研究一个保险领域用例，以预测现有客户是否会购买第二份保险单。我有一些不同类别客户的个人详细信息，如婚姻状况、吸烟者（是或否）、年龄（年轻人、成年人、老年人）、性别（男性/女性），很少有连续变量，如保费支付、保险金额

我的目标是使用这个分类变量和连续变量的混合集并预测类（1-将购买第二个策略，0-将不购买第二个策略）。那么，我如何才能找到/计算该数据集中的相关性，并仅选择重要的相关性用于逻辑回归公式进行分类

如果有人能提供文章，链接到用Python完成的类似工作，我们将不胜感激

Tags：客户分类详细信息用例类别策略领域性别

1条回答

网友

1楼 · 发布于 2024-04-29 16:20:37

对于这个问题，购买第二个策略更像是一个概率事件，而不是确定性事件。例如，您的客户A购买另一种保险的可能性，以及客户A不购买另一种保险的可能性

首先，你需要有一个假设。购买第二个保单是您的因变量（顾名思义，它将取决于其他变量的值）；这是等式的Y。您认为哪些因素会导致客户获得另一项保单

根据您在保险领域的经验，您可能会说X岁以上的客户或Y年以上的客户来自性别Z等。这些是你的独立变量——方程的X

如果你真的想用Python来解决这个问题，请勾选https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares，但如果是我，我会从Excel开始，如果事情变得更复杂，请切换到Python

对于分类数据，您可以为它们指定值。。。例如，男性的性别为1，女性的性别为0。查看此链接以了解更多信息https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features

相关问题更多 >

编程相关推荐

热门问题

热门文章