高基数d的挑战 - 问答 - Python中文网

高基数d的挑战

2024-05-23 13:40:25 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

背景：我正在将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前要经过不同的阶段。在标记为完成之前，每个请求都被分配给不同的团队和个人。这些预测被标记为“我想在x成功之前创建一个完整的历史数据”。在

在各种特征中，记录工作人员的姓名和团队名称是分析这些数据的重要因素。作为一个庞大的组织，我希望每天都有5-10个新名字被加入。在

历史数据

60k记录（用于培训、验证和测试）有10k个唯一的名字

当前数据 总记录1k -有200个人的名字

我正面临着一个挑战，因为高基数的数据，像个人姓名的数量是不固定的，并继续增长。 1在进行实际预测时遇到的挑战-当前数据的列数每次都会不同，并且永远不会与训练数据的特征长度匹配。 -所以每次我都要训练我的模型，我要做预测。 2数据准备时的挑战-以上也对数据准备提出了挑战，因为现在我总是要对完整的数据和查询编码的数据进行编码，以分割成当前和未来的数据。在

抱歉，说来话长。在

我在找什么？

有更好的方法吗？这些不断变化的高维度是一种痛苦。有什么建议可以帮我处理，避免每次训练？在

注意：我试过用PCA和自动编码器来处理暗红色。（对于高度不平衡的数据集，结果并不理想，因此我只处理高维数据）

Tags：数据标记编码系统记录分类特征团队

2条回答

网友

1楼 · 编辑于 2024-05-23 13:40:25

您可以使用标准标记替换数据中的所有标识号和名称，例如<ID>或<NAME>。这应该在预处理期间完成。接下来你应该选择一个固定的词汇。就像所有在训练数据中至少出现5次的单词一样。在

网友

2楼 · 编辑于 2024-05-23 13:40:25

因为你有一个如你所说的动态数据，你可以使用神经网络来识别和合并更新变量和数据。在

你也应该使用像

CVParameterSelection：用于交叉验证参数选择。
部分：对于决策树的制作，它在分而治之的规则上有很大的用处。
REP-Tree（剪枝）：通过分割错误值来减少输出中的错误

最后，当你有了系统，你可以运行预测模型！在

相关问题更多 >

编程相关推荐

热门问题

热门文章