我正在为一个文本分类问题实现一个SVM
模型。我使用SVC
classifyer和向量器:CountVectorizer
,它有一个preprocessor
参数,可以接受一个定制的函数。你知道吗
CountVectorizer(preprocessor=mp.prepro,analyzer="word",max_df=0.6,min_df=3,ngram_range=(1,7))
Triyng为了减少我自己构建的预处理器的功能数量,我在其中执行以下任务:
此外,我还引进了一本词典,并用它检查了每个单词是否属于英语。如果它不成立,我分配给这个词的标签“uknw\ uexp”。你知道吗
我之所以这么做,是因为我认为我的模型能够识别分类问题的这些表达式是很重要的。 所以我需要帮助,因为我不知道我的推理是否正确。你知道吗
-如果是对的,我该怎么办?你知道吗
-有没有更好的预处理器可以实现?你知道吗
-尝试将此方法与单词嵌入结合起来是个好主意吗?你知道吗
谢谢你的帮助!!你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐