为什么python附带的法语标记器对我不起作用? 我做错什么了吗?
我正在做
import nltk
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."]
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle')
for i in content_french:
print(i)
print(tokenizer.tokenize(i))
但是我得到了非标记化的输出,比如
John Richard Bond explique le rôle de l'astronomie.
["John Richard Bond explique le rôle de l'astronomie."]
这个标记器的问题是它不是法语句子的有效标记器:
"l'astronomie"
应标记为["l'", 'astronomie']
。您可以使用
RegexpTokenizer
构建更好的标记器,如下所示:tokenizer.tokenize()
是句子标记器(拆分器)。如果要标记单词,请使用word_tokenize()
:Reference
相关问题 更多 >
编程相关推荐