目前,我正在使用app review数据集预测垃圾邮件。显然,标记为垃圾邮件的评论只是20K条目的数据集的一小部分。为了更好的模型性能,是否值得复制或过度采样数据?如果是,哪些技术可以应用于字符串,如SMOTE、ROS等
样本数据
review_text sentiment error_related
0 [simple, effective, way, new, word, kid] 1 0.0
1 [fh, fcfatgv] 1 1.0
2 [son, loved, easy, even, though, son, first, g... 1 0.0
目前的数据分布
0.0 - 0.918605
1.0 - 0.081395
目前没有回答
相关问题 更多 >
编程相关推荐