带删除重音符号的松散文本

2024-05-16 18:35:25 发布

您现在位置：Python中文网/ 问答频道 /正文

5781

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在和斯帕西合作分析一些法语文本。在

不知何故，在我的数据中，所有重音符号都被非重音符号替换了（例如：réserve-->gt；reserve）。在

因此，当我试图标记字符串并检索引理时，spacy无法识别我的非重音术语。在

import spacy
nlp = spacy.load('fr')

doc_accented = u'réserve moi une chambre'
[token.lemma_ for token in nlp_test(doc_accented) if token.is_punct==False and token.is_space==False and token.is_stop==False]
# Returns : [u'réserver', u'chambrer']

doc_not_accented = u'reserve moi une chambre'
[token.lemma_ for token in nlp_test(doc_not_accented) if token.is_punct==False and token.is_space==False and token.is_stop==False]
# Returns : [u'reserve', u'chambrer']

我试图通过删除现有条目中的所有重音符号并复制它们的属性来向词汇表中添加新条目。在

^{pr2}$

你知道有没有一种方法可以编辑诸如u'reserve这样的词汇表可以被spacy解释为u'réserve'？在

泽维尔

Tags： and token false doc nlp spacy is serve

0条回答

目前没有回答

带删除重音符号的松散文本

相关问题更多 >

编程相关推荐

热门问题

热门文章

带删除重音符号的松散文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >