Python文本分类的特征选择

0 投票
1 回答
3417 浏览
提问于 2025-04-20 20:31

我正在用Python做一个文本分类的项目,使用的是scikit-learn库里的随机森林算法。我想尝试不同的特征选择方法,比如信息增益(IG)或者双正态分离(BNS),这些方法在这篇论文中有介绍。

看起来在scikit-learn里,使用CountVectorizer类进行特征选择时,只有基于文档频率的特征选择方法可用。有没有其他库提供不同的方法呢?

1 个回答

1

这里有一个特征选择的模块,它提供了单变量选择和递归特征消除的工具:http://scikit-learn.org/dev/modules/feature_selection.html。在scikit-learn中没有信息增益或BNS(贝叶斯网络选择)。文档频率并不是一种特征选择的方法。

撰写回答