2024-05-15 00:46:52 发布
网友
我有大约12万个文本文件,和12个类别,我想把这些文件分为。 我使用简单的单词包模型并将其输入到NaiveBayes。但有人告诉我,混合使用多种功能会“有帮助”,或者说我至少应该试试。例如:
1.] POS tags + Bigrams, 2.] Bag-of-NER + POS tags
但问题是如何将这两个/三个不同的特性组合为每个文档的单个特性? 第二,哪种“特征混合”最有助于文档分类?你知道吗
您可以尝试以下操作:
对于每个文档,例如计算单词包向量和Bigrams向量。你知道吗
将两个向量串联起来得到一个大的稀疏向量。你知道吗
使用一些降维技术,会发现你低维嵌入,其中每个特征将是原始特征的组合。 您可以尝试PCA或LDA(线性判别分析)。你知道吗
您可以尝试以下操作:
对于每个文档,例如计算单词包向量和Bigrams向量。你知道吗
将两个向量串联起来得到一个大的稀疏向量。你知道吗
使用一些降维技术,会发现你低维嵌入,其中每个特征将是原始特征的组合。 您可以尝试PCA或LDA(线性判别分析)。你知道吗
相关问题 更多 >
编程相关推荐