如何将不同的特征组合并反馈给文本分类算法

2024-05-15 00:46:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大约12万个文本文件,和12个类别,我想把这些文件分为。 我使用简单的单词包模型并将其输入到NaiveBayes。但有人告诉我,混合使用多种功能会“有帮助”,或者说我至少应该试试。例如:

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags 

但问题是如何将这两个/三个不同的特性组合为每个文档的单个特性? 第二,哪种“特征混合”最有助于文档分类?你知道吗


Tags: 文件of文档pos模型功能tags特性
1条回答
网友
1楼 · 发布于 2024-05-15 00:46:52

您可以尝试以下操作:

对于每个文档,例如计算单词包向量和Bigrams向量。你知道吗

将两个向量串联起来得到一个大的稀疏向量。你知道吗

使用一些降维技术,会发现你低维嵌入,其中每个特征将是原始特征的组合。 您可以尝试PCALDA(线性判别分析)。你知道吗

相关问题 更多 >

    热门问题