用双字组、专有名词和复数改进空间引理化？

import spacy nlp = spacy.load('en', disable=['parser','ner']) doc = nlp(u"bed_bugs bed bug beds bedbug bugs bed_bug nymph nymphs nintendo") for token in doc: print("original: {}, Lemma: {}, POS: {}".format(token, token.lemma_, token.pos_))

original: bed_bugs, Lemma: bed_bugs, POS: PROPN original: bed, Lemma: bed, POS: NOUN original: bug, Lemma: bug, POS: NOUN original: beds, Lemma: bed, POS: VERB original: bedbug, Lemma: bedbug, POS: PROPN original: bugs, Lemma: bugs, POS: PROPN original: bed_bug, Lemma: bed_bug, POS: X original: nymph, Lemma: nymph, POS: PROPN original: nymphs, Lemma: nymphs, POS: PROPN original: nintendo, Lemma: nintendo, POS: PROPN

1条回答

网友

1楼 · 发布于 2024-05-29 03:59:28

Spacy的v2.2模型做了一些修改，试图降低它们对资本化的敏感度，这样就可以更好地处理非正式文本，比如社交媒体文本，但其中一个副作用是，如果没有任何上下文，它们很难区分普通名词和专有名词。在一些自然语言环境下，它们会表现得更好，比如“我在邻居的公寓里看到臭虫”

如果你事先知道你所有的词都是普通名词，你也可以像这样直接为一个词调用lemmatizer：

import spacy
nlp = spacy.load('en_core_web_sm')
lemmatizer = nlp.Defaults.create_lemmatizer()
lemmatizer("bedbugs", "NOUN") # ['bedbug']

相关问题更多 >

编程相关推荐

热门问题

热门文章