使用机器学习模型(scikit或statsmodels)回答商业问题

2024-04-26 12:55:52 发布

您现在位置:Python中文网/ 问答频道 /正文

谢谢你的帮助。在

这感觉是个愚蠢的问题,我可能把事情搞得太复杂了。一些背景信息-我最近在Python(scikit和一些statsmodels)中学习了一些机器学习方法,如线性回归、逻辑回归、KNN等。我可以完成在熊猫数据框中准备数据并将分类数据转换为0和1的步骤。我还可以将这些方法加载到模型中(例如,在科学回归工具包中学习)。我知道如何训练和测试它(使用CV等),以及一些微调方法(gridscore等)。但这一切都在预测新数据结果的范围之内。我主要集中在学习如何构建一个预测新X值的模型,并测试该模型以确认准确性/精确度。在

但是,现在我很难确定和执行其他类型的问题的步骤,比如说,回归模型可以回答,比如:

为什么上个月客服电话减少了? 我们应该采用这种促销模式还是另一种模式?在

假设我们有所有的变量/预测值集,我们如何使用任何有监督的机器学习模型,或者只是statsmodels包中的一个stat模型来确定这两个问题呢。在

希望这有道理。我当然可以更详细地讲。在


Tags: 数据方法模型机器信息模式步骤线性
2条回答

Why did customer service calls drop last month?

这取决于你需要分析和探索数据的类型和特征。最基本的事情之一是查看特性和目标变量之间的相关性,以检查是否可以识别出任何与调用丢弃相关的特性。因此,研究不同的统计数据可能比预测模型更有助于回答这个问题。在

此外,在您开始使用预测模型之前分析和研究数据总是一个好的实践,因为根据您选择的预测模型,通常需要改进数据(缩放、删除异常值、丢失数据等)。在

Should we go with this promotion model or another one?

这个问题可以根据您为这些数据设计的回归模型或任何其他预测模型来回答。如果您可以提供促销模型的输入特性,这些模型将帮助您预测功能的销售/结果。在

你的问题可能被视为过于宽泛,因为你所问的实际上是“我应该建模什么?”也就是说,我将试着对你提出的问题提出一些想法,以防证明有用。在

以你的第一个假设为例: “为什么上个月客服电话减少了?”在

首先,这假设您有一个您想了解的现象(降低客户服务电话)。在开发任何模型时,您应该确保您提出的问题在理论上可以由模型来回答。在这种情况下,措辞可以是:哪些因素使我们掌握了良好的信息,导致上个月客户服务电话减少(与之前的一些时间段相比)。在

这个措辞有点生硬,但也指出了问题:模型是用来量化问题潜在答案的工具。在

此时,您所需要的是理解为什么您可以从模型中包含或排除信息。理论是最好的向导,即使是松散的。客户来电是什么功能?售出套数?生产质量?设备提供的说明是否清晰?此外,其中一些是其他问题的函数:单元数是一年中时间、市场营销、总体销售趋势等的函数

假设您已经识别并能够捕获您认为与感兴趣的结果相关的特性:客户服务电话。此外,假设您已经存储了它们,清理了它们,处理了它们,并准备好了一个数据集并在等待。在

如前所述,您希望解释一个您已经看到的结果(电话掉线)。模型有无数种选择;类型/样式的选择完全取决于您想知道的内容。从你提出问题的方式来看,你可能对因果关系感兴趣。这很难做到,因为总有一些你无法捕捉到的变量可能会影响你所捕捉到的东西(混杂因素),但这并非不可能。在一般情况下,任何人都需要在线性回归模型中进行训练?从这些模型中得到的系数可以告诉你哪些特征与服务调用的增加/减少相关(我避免说“原因”,因为这需要一些非常具体的条件)。This might be a good starting point for you.

或者,你可能只是想问“我捕捉到的那些特性中,哪一个是对服务呼叫量的最具预测性的”,在这种情况下,你有一个更直接的预测模型,你只是在寻找一个非常好的预测模型。当然,这些并不是相互排斥的。在因果模型中,如果因果关系很重要的话。在

最后,您应该熟悉对系数和结果的解释,这些系数和结果是由模型指示的,用于与感兴趣的响应变量的关系。这将有助于提供一个合理的想法,每个模型可以说,关于感兴趣的现象。在

相关问题 更多 >