支持向量机文本分类模型中的定制预处理器

2024-04-19 07:14:58 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在为一个文本分类问题实现一个SVM模型。我使用SVCclassifyer和向量器：CountVectorizer，它有一个preprocessor参数，可以接受一个定制的函数。你知道吗

CountVectorizer(preprocessor=mp.prepro,analyzer="word",max_df=0.6,min_df=3,ngram_range=(1,7))

Triyng为了减少我自己构建的预处理器的功能数量，我在其中执行以下任务：

此外，我还引进了一本词典，并用它检查了每个单词是否属于英语。如果它不成立，我分配给这个词的标签“uknw\ uexp”。你知道吗

我之所以这么做，是因为我认为我的模型能够识别分类问题的这些表达式是很重要的。所以我需要帮助，因为我不知道我的推理是否正确。你知道吗

-如果是对的，我该怎么办？你知道吗

-有没有更好的预处理器可以实现？你知道吗

-尝试将此方法与单词嵌入结合起来是个好主意吗？你知道吗

谢谢你的帮助！！你知道吗

Tags：模型文本名称 df 表达式时间分类数字

0条回答

目前没有回答