非英语单词的柠檬化?

2024-04-28 05:15:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我想运用引理化来减少单词的屈折形式。我知道WordNet为英语语言提供了这样一个功能,但我也有兴趣对荷兰语、法语、西班牙语和意大利语的单词应用柠檬化。这件事有没有可靠可靠的方法?谢谢您!


Tags: 方法功能语言单词wordnet形式兴趣柠檬
2条回答

试试剪辑库,它们支持德语、英语、西班牙语、法语和意大利语。正是你所需要的:http://www.clips.ua.ac.be/pattern

不幸的是,它只适用于Python 2,还没有提供对Python3的支持。

textacy库http://textacy.readthedocs.io/en/latest/api_reference.html提供了基本的工具,用于构建一个包含元素化的单词包或术语包,作为其选项的一部分。我用西班牙语试过了,效果还不错。

doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True)

这个库会自动检查你所用的语言,并根据它进行引理。但是,您也可以在这里指定它。

import textacy
text = 'Los gatos y los perros juegan juntos en el patio de su casa'
doc = textacy.Doc(text, lang='es')
print(doc.to_bag_of_words(normalize='lemma', as_strings=True))

您将得到如下输出 {'perro':1,'y':1,'gato':1,'jugar':1,'casar':1,'Los':1,'patio':1}

图书馆很好地识别了一些单词,但是引理并没有被完全识别。希望这有帮助。

相关问题 更多 >