如何将不同的特征组合并反馈给文本分类算法 - 问答 - Python中文网

如何将不同的特征组合并反馈给文本分类算法

2024-05-15 00:46:52 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有大约12万个文本文件，和12个类别，我想把这些文件分为。我使用简单的单词包模型并将其输入到NaiveBayes。但有人告诉我，混合使用多种功能会“有帮助”，或者说我至少应该试试。例如：

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags

但问题是如何将这两个/三个不同的特性组合为每个文档的单个特性？第二，哪种“特征混合”最有助于文档分类？你知道吗

Tags：文件 of 文档 pos 模型功能 tags 特性

1条回答

网友

1楼 · 发布于 2024-05-15 00:46:52

您可以尝试以下操作：

对于每个文档，例如计算单词包向量和Bigrams向量。你知道吗

将两个向量串联起来得到一个大的稀疏向量。你知道吗

使用一些降维技术，会发现你低维嵌入，其中每个特征将是原始特征的组合。您可以尝试PCA或LDA（线性判别分析）。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章