带删除重音符号的松散文本

2024-04-29 15:27:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在和斯帕西合作分析一些法语文本。在

不知何故,在我的数据中,所有重音符号都被非重音符号替换了(例如:réserve-->gt;reserve)。在

因此,当我试图标记字符串并检索引理时,spacy无法识别我的非重音术语。在

import spacy
nlp = spacy.load('fr')

doc_accented = u'réserve moi une chambre'
[token.lemma_ for token in nlp_test(doc_accented) if token.is_punct==False and token.is_space==False and token.is_stop==False]
# Returns : [u'réserver', u'chambrer']

doc_not_accented = u'reserve moi une chambre'
[token.lemma_ for token in nlp_test(doc_not_accented) if token.is_punct==False and token.is_space==False and token.is_stop==False]
# Returns : [u'reserve', u'chambrer']

我试图通过删除现有条目中的所有重音符号并复制它们的属性来向词汇表中添加新条目。在

^{pr2}$

你知道有没有一种方法可以编辑诸如u'reserve这样的词汇表可以被spacy解释为u'réserve'?在

泽维尔


Tags: andtokenfalsedocnlpspacyisserve