高基数d的挑战

2024-05-23 13:40:25 发布

您现在位置:Python中文网/ 问答频道 /正文

背景:我正在将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前要经过不同的阶段。在标记为完成之前,每个请求都被分配给不同的团队和个人。 这些预测被标记为“我想在x成功之前创建一个完整的历史数据”。在

在各种特征中,记录工作人员的姓名和团队名称是分析这些数据的重要因素。作为一个庞大的组织,我希望每天都有5-10个新名字被加入。在

历史数据

60k记录(用于培训、验证和测试) 有10k个唯一的名字

当前数据 总记录1k -有200个人的名字

我正面临着一个挑战,因为高基数的数据,像个人姓名的数量是不固定的,并继续增长。 1在进行实际预测时遇到的挑战-当前数据的列数每次都会不同,并且永远不会与训练数据的特征长度匹配。 -所以每次我都要训练我的模型,我要做预测。 2数据准备时的挑战-以上也对数据准备提出了挑战,因为现在我总是要对完整的数据和查询编码的数据进行编码,以分割成当前和未来的数据。在

抱歉,说来话长。在

我在找什么?

有更好的方法吗? 这些不断变化的高维度是一种痛苦。有什么建议可以帮我处理,避免每次训练?在

注意:我试过用PCA和自动编码器来处理暗红色。(对于高度不平衡的数据集,结果并不理想,因此我只处理高维数据)


Tags: 数据标记编码系统记录分类特征团队
2条回答

您可以使用标准标记替换数据中的所有标识号和名称,例如<ID><NAME>。这应该在预处理期间完成。接下来你应该选择一个固定的词汇。就像所有在训练数据中至少出现5次的单词一样。在

因为你有一个如你所说的动态数据,你可以使用神经网络来识别和合并更新变量和数据。在

你也应该使用像

  1. CVParameterSelection:用于交叉验证参数选择。

  2. 部分:对于决策树的制作,它在分而治之的规则上有很大的用处。

  3. REP-Tree(剪枝):通过分割错误值来减少输出中的错误

最后,当你有了系统,你可以运行预测模型!在

相关问题 更多 >