如何告诉Pandas/scikit了解一个领域如何影响预测模型

2024-06-01 01:35:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试创建/验证一个使用虚拟数据集的预测模型,使用Phyton和sklearn,遵循this教程。你知道吗

数据集包含有关棒球投手投球的信息,这些是最重要的字段:

  • 结果(玩家是否成功/不成功投掷 罢工)
  • 方向(无论是高抛、中抛还是低抛)
  • 其他领域如球的速度,球员数据等

基于不同的场,该模型将尝试预测投手应该投什么方向(方向场)以获得打击。你知道吗

在我下面的教程(上面的链接)中,这是一个调用生成模型的函数的示例,在本例中是logistic回归(但我们可以使用列出的任何其他分类技术):

outcome_var = 'Direction'
model = LogisticRegression()
predictor_var = ['Result', <insert other fields here>]
classification_model(model, df,predictor_var,outcome_var) 

如何告诉模型结果字段的负面影响(和重要性)?你知道吗

基本上,如果结果是“成功的”,它应该训练模型在面对相同的场景时选择相同的方向(高/中/低)。但是,如果结果为“Unsuccessful”,则应该训练模型选择与样本中的方向不同的方向,因为这不是一个好的选择(不管其他字段如何)

如何告诉模型如何使用结果字段来做出决策?我可以包括任何更多的细节(或代码)如果需要。谢谢!你知道吗


Tags: 数据模型信息modelvar教程sklearnthis
1条回答
网友
1楼 · 发布于 2024-06-01 01:35:46

你没有

机器学习的目的就是让机器自动地从数据中学习关系和规则。你知道吗

因此,他们帮助模型找到这种关系的方法是提供尽可能多的(正确的)数据。有了足够的数据,一个好的模型应该能够概括并找出,在你的例子中,'Result'字段对于预测'Direction'结果是否有用。你知道吗

相关问题 更多 >