支持向量机文本分类模型中的定制预处理器

2024-04-19 07:14:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为一个文本分类问题实现一个SVM模型。我使用SVCclassifyer和向量器:CountVectorizer,它有一个preprocessor参数,可以接受一个定制的函数。你知道吗

CountVectorizer(preprocessor=mp.prepro,analyzer="word",max_df=0.6,min_df=3,ngram_range=(1,7))

Triyng为了减少我自己构建的预处理器的功能数量,我在其中执行以下任务:

  • 分配所有月份名称标签“month\U exp”
  • 为所有周日名称指定标签“week\u exp”
  • 分配所有时间表达式(12:10a.m.)标签“时间表达式”
  • 将所有数字表达式n数字一起分配标签“dig\u i”
  • 应用词干分析器。你知道吗

此外,我还引进了一本词典,并用它检查了每个单词是否属于英语。如果它不成立,我分配给这个词的标签“uknw\ uexp”。你知道吗

我之所以这么做,是因为我认为我的模型能够识别分类问题的这些表达式是很重要的。 所以我需要帮助,因为我不知道我的推理是否正确。你知道吗

-如果是对的,我该怎么办?你知道吗

-有没有更好的预处理器可以实现?你知道吗

-尝试将此方法与单词嵌入结合起来是个好主意吗?你知道吗

谢谢你的帮助!!你知道吗


Tags: 模型文本名称df表达式时间分类数字