sklearn.feature_selection中的除卡方外的特征选择指标
我正在尝试使用sklearn.svm.SVC进行一些文本分类的实验。我了解到,在使用支持向量机(SVM)建模之前进行特征选择并不是一个很明智的做法,因为通常情况下,使用所有特征的表现会最好。不过,从学术角度来看,看看不同的特征选择方法是如何对特征进行排名的,还是挺有意思的。
经过一些研究,我发现sklearn中可用的特征选择指标非常有限,比如只有卡方检验(Chi-2)。我想知道是否有其他常用的指标,比如信息增益(IG)和贝叶斯网络(BNS),已经在sklearn(或其他地方)实现了,可以直接用作sklearn.feature_selection.SelectKBest()中的评分函数?
1 个回答
2
InfoGain这个功能还没有实现,但我觉得@larsmans希望将来能把它加入进来。我对BNS的情况不太了解。
如果你想的话,欢迎你来贡献这个功能。这里有一个贡献指南: