Python中文
首页
教程
问答
标签
搜索
登录
注册
高基数d的挑战
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p><strong>背景</strong>:我正在将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前要经过不同的阶段。在标记为完成之前,每个请求都被分配给不同的团队和个人。 这些预测被标记为“我想在x成功之前创建一个完整的历史数据”。在</p> <p>在各种特征中,记录工作人员的姓名和团队名称是分析这些数据的重要因素。作为一个庞大的组织,我希望每天都有5-10个新名字被加入。在</p> <p><strong>历史数据</strong></p> <p>60k记录(用于培训、验证和测试) 有10k个唯一的名字</p> <p><strong>当前数据</strong> 总记录1k -有200个人的名字</p> <p>我正面临着一个挑战,因为高基数的数据,像个人姓名的数量是不固定的,并继续增长。 1在进行实际预测时遇到的挑战-当前数据的列数每次都会不同,并且永远不会与训练数据的特征长度匹配。 -所以每次我都要训练我的模型,我要做预测。 2数据准备时的挑战-以上也对数据准备提出了挑战,因为现在我总是要对完整的数据和查询编码的数据进行编码,以分割成当前和未来的数据。在</p> <p>抱歉,说来话长。在</p> <p>我在找什么?</strong></p> <p>有更好的方法吗? 这些不断变化的高维度是一种痛苦。有什么建议可以帮我处理,避免每次训练?在</p> <p>注意:我试过用PCA和自动编码器来处理暗红色。(对于高度不平衡的数据集,结果并不理想,因此我只处理高维数据)</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以使用标准标记替换数据中的所有标识号和名称,例如<code><ID></code>或<code><NAME></code>。这应该在预处理期间完成。接下来你应该选择一个固定的词汇。就像所有在训练数据中至少出现5次的单词一样。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
plt.savefig不会覆盖现有文件
9 回答
plt.savefig不保存图像
3 回答
plt.savefig在jupyter笔记本中不起作用
3 回答
plt.savefig在从另一个fi调用时停止工作
7 回答
plt.savefig在调用plt.show之前保存空数字
2 回答
plt.save不创建png文件
9 回答
plt.scatter overlay分类数据帧列
6 回答
Plt.Scatter:如何添加title、xlabel和ylab
7 回答
plt.scatter()绘图与Matplotlib中的plt.plot()绘图类似
4 回答
plt.scatter错误'NoneType'对象在成功运行后没有属性'sqrt'
10 回答
plt.set_title()中的标题字符串有误
9 回答
plt.show()
8 回答
plt.show()不在Jupyter笔记本上渲染任何内容
3 回答
plt.show()不打印plt.plot only plt.scatter
8 回答
plt.show()不显示三维散射图像
10 回答
plt.show()不显示任何内容
2 回答
plt.show()不显示数据,而是保留它供下一个图表使用(spyder)
2 回答
plt.show()使终端挂起
10 回答
plt.show()无法使用此代码
4 回答
plt.show()没有打开新的图形风
8 回答