使用递归特征消除在文本分类中花费了太多的时间

2024-04-26 14:51:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我在做方言文本分类。当我测试模型时,精确度从90%下降到70%。我想我应该减少功能,因为我有大约45000个功能。因此,我使用递归特征消除:

    from sklearn.feature_selection import RFECV
    m=RFECV(MultinomialNB(), scoring="accuracy")

    m.fit(X,y_train) #I have vectorized X using countVectorizer.

有没有其他方法可以减少这些功能?因为这个方法花的时间太长了。我在countvectorizer中使用了max\u特性,但它删除了所有相关特性。我想要的东西,像我可以尝试所有的组合,并找到最好的准确性,所有这些都是自动化与射频电子捕获。你知道吗


Tags: 方法from模型文本import功能分类特征