词干转换后,我能从它的词根中得到一个词吗?

2024-03-28 22:02:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我对文本进行了词干分析,得到了部首,现在我想得到一个有意义的输出。我知道部首有很多词可以用,我只需要一个。可能吗


Tags: 文本意义词干部首
1条回答
网友
1楼 · 发布于 2024-03-28 22:02:31

您可能想尝试柠檬化而不是词干化。这个过程试图为每个输入生成一个规范的“字典单词”,而不是一个词根。见What is the difference between lemmatization vs stemming?

否则,您可以使用dict跟踪映射到每个词干的单词。(此代码存储一组单词,但您可以对其进行修改,使其仅记录每个词干的一个单词。)

from collections import defaultdict

def get_stem_dict(words, stemmer):
    stem_to_words = defaultdict(set)
    for word in words:
        stem = stemmer.stem(word)
        stem_to_words[stem].add(word)
    return stem_to_words

然后,您可以使用dict查找给定词干的示例词:

def get_example(stem_to_words, stem):
    return next(iter(stem_to_words[stem]))

相关问题 更多 >