德语中带空格的小写引理化

2024-04-25 05:03:56 发布

男 | 程序猿一只，喜欢编程写python代码。

在德语中，名词的单数化和spacy似乎存在一个问题。 Spacy似乎依赖于大写的单词来识别它们为名词。例如：

import spacy
nlp = spacy.load("C:\\Users\\somepath\\spacy\\de_core_md\\de_core_news_md\\de_core_news_md-2.2.5")

def lemmatize_text(text):
    """returns the text with each word in its basic form"""
    doc = nlp(text)
    return [word.lemma_ for word in doc]

lemmatize_text('Das Wort Tests wird erkannt. Allerdings werden tests nicht erkannt')
--> ['der', 'Wort', 'Test', 'werden', 'erkennen', '.', 'Allerdings', 'werden', 'tests', 'nicht', 'erkennen']

# should say 'Test' for both sentences

如果我马上对原文进行柠檬化，那就不会有问题了。但是，我的预处理如下所示：

改成小写
删除标点符号
删除停止字
柠檬化

是否有执行上述步骤的建议顺序

我并不是首先进行引理化，因为一句话开头的单词不会被正确识别：

lemmatize_text('Größer wird es nicht mehr. größer wird es nicht mehr.')
--> ['Größer', 'werden', 'ich', 'nicht', 'mehr', '.', 'groß', 'werden', 'ich', 'nicht', 'mehr', '.']

# should say 'groß' for both sentences

Tags： text core for spacy de 单词 md word

0条回答

目前没有回答

德语中带空格的小写引理化

相关问题更多 >

编程相关推荐

热门问题

热门文章

德语中带空格的小写引理化

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >