Spacy lemmatizer问题/一致性 - 问答 - Python中文网

Spacy lemmatizer问题/一致性

2024-04-27 05:00:01 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我目前正在将spaCy用于NLP目的（主要是lemmatization和tokenization）。使用的模型是en-corewebsm（2.1.0）。在

运行以下代码从查询中检索单词“cleaned”的列表

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(query)
list_words = []
for token in doc:
    if token.text != ' ':
        list_words.append(token.lemma_)

但是我在运行这段代码时面临一个主要问题。例如，当查询为“茶叶加工”时。存储在list_words中的结果可以是['processing'、'tea'、'leaf']或['processing'、'tea'、'leave']。在

结果似乎并不一致。我不能更改我的输入/查询（不可能为context添加另一个单词），我确实需要每次都找到相同的结果。我认为模型的加载可能是问题所在。在

为什么结果不同？我可以每次都以“相同”的方式加载模型吗？我是否遗漏了一个参数，以获得模棱两可的查询结果？在

谢谢你的帮助

Tags：代码模型目的 token doc nlp spacy 单词

1条回答

网友

1楼 · 发布于 2024-04-27 05:00:01

spaCy小组对这个问题进行了分析，他们想出了解决办法。修复方法如下：https://github.com/explosion/spaCy/pull/3646

基本上，当应用引理规则时，使用一个集合来返回引理。由于集合没有顺序，返回的引理可能会在python会话之间发生变化。在

例如，在我的例子中，对于名词“leaves”，潜在的引理是“leave”和“leaf”。没有排序，结果是随机的-可以是“leave”或“leaf”。在

相关问题更多 >

编程相关推荐

热门问题

热门文章