是否可以对任何文本分类应用PCA？

from sklearn import PCA from sklearn import RandomizedPCA from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB vectorizer = CountVectorizer() classifer = MultinomialNB(alpha=.01) x_train = vectorizer.fit_transform(temizdata) classifer.fit(x_train, y_train)

>>> x_train <43x4429 sparse matrix of type '<class 'numpy.int64'>' with 6302 stored elements in Compressed Sparse Row format> >>> print(x_train) (0, 2966) 1 (0, 1974) 1 (0, 3296) 1 .. .. (42, 1629) 1 (42, 2833) 1 (42, 876) 1

3条回答

网友

1楼 · 编辑于 2024-06-16 15:29:38

问题是，通过应用降维，将生成负特征。然而，多名词NB不具有负特征。请参考this问题。

尝试另一个分类器，如RandomForest，或者尝试使用sklearn.preprocessing.MinMaxScaler()将训练功能缩放到[0,1]

网友

2楼 · 编辑于 2024-06-16 15:29:38

与其将sparse矩阵转换为dense（这是不可取的），我将使用scikits learn的^{}，这是一种类似PCA的调光性减少算法（默认情况下使用随机SVD），用于稀疏数据：

svd = TruncatedSVD(n_components=5, random_state=42)
data = svd.fit_transform(data)

引用TruncatedSVD文档：

In particular, truncated SVD works on term count/tf-idf matrices as returned by the vectorizers in sklearn.feature_extraction.text. In that context, it is known as latent semantic analysis (LSA).

这正是你的用例。

网友

3楼 · 编辑于 2024-06-16 15:29:38

NaiveBayes分类器需要离散值特征，但PCA破坏了特征的这一特性。如果你想使用主成分分析，你必须使用不同的分类器。

可能还有其他的降维方法可以使用NB，但我不知道这些。也许简单的feature selection就能奏效。

旁注：你可以尝试在应用主成分分析后对特征进行离散化，但我不认为这是个好主意。

相关问题更多 >

编程相关推荐

热门问题

热门文章