Python中俚语的柠檬化

2024-03-28 20:36:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试训练一个支持向量机来进行Twitter文本分类。显然,tweet中包含了很多与NLP更常见的正式文档相关的俚语或拼写错误的单词。下面是一个我尝试分类的tweet示例:

Word I'm bout to holla at her via twitter RT @iamJay_Fresh : #trushit - im tryna fucc nicki minaj lol

我想知道是否有可能对这篇文章进行词干/词缀化,这样俚语词就被纠正了,看起来像这样:

^{pr2}$

注:我不太担心将常见的首字母缩略词“lol”扩展为“laughing out loud”。我之所以要进行柠檬化,是为了减少数据的稀疏性:如果SVM在负面语境中见过“holler”很多次,但“holla”只出现了几次,因为人们使用它的次数较少,那么使用“holler”的内涵将tweet与“holla”进行分类将有好处。OTOH“lol”通常用在肯定的tweets中,因此如果支持向量机看到另一个“lol”,它就会知道它的极性,即使它不是正式的英语。在


Tags: 文档文本示例nlp分类twitter单词向量