如何用文本数据清理数据集并将其用于分类

2024-03-29 10:47:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究一个数据集上的性别分类器,这个数据集有很多缺失值,更多的是分类的价值观。如何我应该将分类值转换为数值吗?我应该使用哪种算法来获得更好的精度? https://github.com/lakshmipriya04/py-sample/


Tags: 数据samplepyhttpsgithubcom算法分类器
1条回答
网友
1楼 · 发布于 2024-03-29 10:47:42

有两种类型的分类变量编码:创建虚拟变量和通过标签编码编码。你知道吗

伪变量的缺失值将显示为每一组伪列的空向量。对于标签编码,它可以是特定的类(标签)。你知道吗

为了解决缺失值的问题,你可以通过平均值(数值)或模式(分类)来计算它们。在创建其他缺少值指示列变得有用之前,如果缺少值,则该列具有1,否则为0。你知道吗

可使用ML中的任何分类器进行插补。尝试SVC(因为您有二元分类)并从简单的逻辑回归开始。你知道吗

在没有插补的情况下,只有XGBoost有帮助(它允许在数据集中有缺失的值)。你知道吗

但你还有一个小问题。你需要对文本进行预处理。请阅读NLP。你知道吗

相关问题 更多 >