标记时结合单数和复数、动词和副词的nltk频率

import nltk from nltk.tokenize import RegexpTokenizer test = "That aggressive person walk by the house over there, one of many houses aggressively" tokenizer = RegexpTokenizer(r'\w+') tokens = tokenizer.tokenize(test) fdist = nltk.FreqDist(tokens) common=fdist.most_common(100)

1条回答

网友

1楼 · 发布于 2024-05-19 03:41:32

你需要柠檬化。在

NLTK包括一个基于WordNet的lemmatizer：

import nltk
tokenizer = nltk.tokenize.RegexpTokenizer(r'\w+')
lemmatizer = nltk.stem.WordNetLemmatizer()
test = "That aggressive person walk by the house over there, one of many houses aggressively"
tokens = tokenizer.tokenize(test)
lemmas = [lemmatizer.lemmatize(t) for t in tokens]
fdist = nltk.FreqDist(lemmas)
common = fdist.most_common(100)

这将导致：

^{pr2}$

然而，侵略性的和侵略性的不会被WordNet词法化器合并。还有其他狐猴，它们可能会做你想做的。不过，首先，您可能需要考虑使用词干：

stemmer = nltk.stem.PorterStemmer()
stems = [stemmer.stem(t) for t in tokens]
nltk.FreqDist(stems).most_common()

这给了你：

[(u'aggress', 2),
 (u'hous', 2),
 (u'there', 1),
 (u'That', 1),
 (u'of', 1),
 (u'over', 1),
 (u'walk', 1),
 (u'person', 1),
 (u'mani', 1),
 (u'the', 1),
 (u'one', 1),
 (u'by', 1)]

伯爵现在看起来很好！然而，你可能会因为词干不一定看起来像真词而恼火。。。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

标记时结合单数和复数、动词和副词的nltk频率

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >