复制字符串数据以获得更好的模型性能是否值得？ - 问答 - Python中文网

复制字符串数据以获得更好的模型性能是否值得？

2024-04-23 14:16:19 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

目前，我正在使用app review数据集预测垃圾邮件。显然，标记为垃圾邮件的评论只是20K条目的数据集的一小部分。为了更好的模型性能，是否值得复制或过度采样数据？如果是，哪些技术可以应用于字符串，如SMOTE、ROS等

样本数据

review_text sentiment   error_related
0   [simple, effective, way, new, word, kid]    1   0.0
1   [fh, fcfatgv]   1   1.0
2   [son, loved, easy, even, though, son, first, g...   1   0.0

目前的数据分布

0.0 - 0.918605
1.0 - 0.081395

Tags：数据字符串标记模型目的 app 评论垃圾邮件

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章