Nltk法语分词器在python中无法运行

import nltk content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle') for i in content_french: print(i) print(tokenizer.tokenize(i))

2条回答

网友

1楼 · 编辑于 2024-05-13 02:18:19

这个标记器的问题是它不是法语句子的有效标记器：

from nltk.tokenize import word_tokenize
content_french = ("John Richard Bond explique le rôle de l'astronomie.")
word_tokenize(content_french, language='french')
>> ['John', 'Richard', 'Bond', 'explique', 'le', 'rôle', 'de', "l'astronomie", '.']

"l'astronomie"应标记为["l'", 'astronomie']。

您可以使用RegexpTokenizer构建更好的标记器，如下所示：

from nltk import RegexpTokenizer
toknizer = RegexpTokenizer(r'''\w'|\w+|[^\w\s]''')
toknizer.tokenize(content_french)
>> ['John', 'Richard', 'Bond', ...,"l'", 'astronomie', '.']

网友

2楼 · 编辑于 2024-05-13 02:18:19

tokenizer.tokenize()是句子标记器（拆分器）。如果要标记单词，请使用word_tokenize()：

import nltk
from nltk.tokenize import word_tokenize

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."]
for i in content_french:
        print(i)
        print(word_tokenize(i, language='french'))

Reference

相关问题更多 >

编程相关推荐

热门问题

热门文章