nlp多标签分类tf与tfid

2024-04-26 00:32:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图解决一个NLP多标签分类问题。我有大量的文件,应该分为29类。你知道吗

我解决问题的方法是,在清理文本、停止删除单词、标记化等之后,执行以下操作:

为了创建特征矩阵,我查看了每个文档中术语的频率分布,然后创建了这些术语的表(删除重复的术语),然后计算了相应文本中每个单词的术语频率(tf)。所以,最终我得到了大约1000个术语和它们在每个文档中受人尊敬的频率。你知道吗

然后我用selectKbest把它们缩小到490左右。在缩放它们之后,我使用OneVsRestClassifier(SVC)进行分类。你知道吗

我得到了一个F1 score左右的0.58,但它没有任何改善,我需要得到0.62。你知道吗

我处理这个问题正确吗?你知道吗

我是否需要使用tfidf vectorizer而不是tf,以及如何使用?你知道吗

我是NLP的新手,我不知道下一步该怎么做,如何提高分数。你知道吗

这方面的任何帮助都是无价的。你知道吗

谢谢


Tags: 文件方法文档标记文本nlptf分类
1条回答
网友
1楼 · 发布于 2024-04-26 00:32:45

Tf方法可以对常用词给予更多的重视,而不是使用Tfidf方法,该方法对数据集中特定文档中罕见且唯一的词给予重视。你知道吗

另外,在选择Kbest之前,还要对整个特征集进行训练,然后使用特征重要性来获得最佳特征。你知道吗

您也可以尝试使用Tree ClassifiersXGB来更好地建模,但是SVC也是非常好的分类器。你知道吗

尝试使用Naive Bayes作为f1 score的最低标准,并尝试在grid search的帮助下改进其他分类器的结果。你知道吗

相关问题 更多 >