2024-03-28 22:02:31 发布
网友
我对文本进行了词干分析,得到了部首,现在我想得到一个有意义的输出。我知道部首有很多词可以用,我只需要一个。可能吗
您可能想尝试柠檬化而不是词干化。这个过程试图为每个输入生成一个规范的“字典单词”,而不是一个词根。见What is the difference between lemmatization vs stemming?
否则,您可以使用dict跟踪映射到每个词干的单词。(此代码存储一组单词,但您可以对其进行修改,使其仅记录每个词干的一个单词。)
from collections import defaultdict def get_stem_dict(words, stemmer): stem_to_words = defaultdict(set) for word in words: stem = stemmer.stem(word) stem_to_words[stem].add(word) return stem_to_words
然后,您可以使用dict查找给定词干的示例词:
def get_example(stem_to_words, stem): return next(iter(stem_to_words[stem]))
您可能想尝试柠檬化而不是词干化。这个过程试图为每个输入生成一个规范的“字典单词”,而不是一个词根。见What is the difference between lemmatization vs stemming?
否则,您可以使用dict跟踪映射到每个词干的单词。(此代码存储一组单词,但您可以对其进行修改,使其仅记录每个词干的一个单词。)
然后,您可以使用dict查找给定词干的示例词:
相关问题 更多 >
编程相关推荐