如何处理类别可能随时间变化的类别变量建模?

2024-06-16 09:38:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我面临一个关于分类变量的问题。在我的例子中,我的变量可能有不同数量的级别。例如,假设我的分类变量表示type_of_cars。最初,它只有三种类型(为了论证):gas dieselhybrid。我使用了一种编码来表示它们。现在市场上出现了一种新型汽车,即电动汽车。我想知道是否有一种方法可以在不重新培训车型的情况下适应电动汽车

在我的例子中,分类变量有大约50个不同的级别,随着时间的推移,可能会添加新的级别,也可能会删除旧的级别。如果可能的话,我如何在每次数据发生时都不重新训练整个模型的情况下对数据进行建模

非常感谢您的建议

多谢各位


Tags: of数据类型数量type分类情况级别
1条回答
网友
1楼 · 发布于 2024-06-16 09:38:40

最好的方法就是重新训练你的模型

思考分类变量如何影响模型可能会有所帮助。分类变量通常被视为二进制变量,其中每个类别都是自己的列,如果存在该类别,则该列中的行为1,否则为0。现在想象一下,在您的数据中添加一列您的模型尚未训练过的数据,就像一个新类别的情况一样。。。这将导致次优性能。最有可能的是,这个新列不会对模型预测产生影响

您所建议的有一些示例,但它们需要将次要模型输入到主要模型中。我们经常在自然语言处理中看到这一点,在自然语言处理中有一个文本相似性的模型(一个词向量),然后这个模型被输入到另一个模型中,该模型预测文本类别和情感等内容

因此,基本上,如果您可以对分类变量的相似性进行建模(这是您的二级模型),并将该模型输入到主模型中,那么您只需要在获得新数据时更新二级模型。但这种方法也有它的问题

相关问题 更多 >