复制字符串数据以获得更好的模型性能是否值得?

2024-04-23 14:16:19 发布

您现在位置:Python中文网/ 问答频道 /正文

目前,我正在使用app review数据集预测垃圾邮件。显然,标记为垃圾邮件的评论只是20K条目的数据集的一小部分。为了更好的模型性能,是否值得复制或过度采样数据?如果是,哪些技术可以应用于字符串,如SMOTE、ROS等

样本数据

review_text sentiment   error_related
0   [simple, effective, way, new, word, kid]    1   0.0
1   [fh, fcfatgv]   1   1.0
2   [son, loved, easy, even, though, son, first, g...   1   0.0

目前的数据分布

0.0 - 0.918605
1.0 - 0.081395

Tags: 数据字符串标记模型目的app评论垃圾邮件