bnltk(bangla natural language processing toolkit)是一个用于孟加拉自然语言处理的开源python包。
bnltk的Python项目详细描述
bnltk
bnltk(bangla natural language processing toolkit)是一个用于孟加拉自然语言处理的开源python包。它包括标记化、词干分析、词性标注等模块。我期待着帮助贡献者们把这件事做得更好
安装
pip安装bnltk
用法
标记器
from bnltk.tokenize import Tokenizers
t = Tokenizers()
print(t.bn_word_tokenizer(' আমার সোনার বাংলা । '))
茎干器
from bnltk.stemmer import BanglaStemmer
bn_stemmer = BanglaStemmer()
print(bn_stemmer.stem('খেয়েছিলো'))
部分标签
要使用tagger的各个部分,您需要下载一些数据文件,如下所示:
from bnltk.bnltk_downloads import DataFiles
DataFiles().download()
成功下载文件后,您可以使用此模块。
pos_tagger = PosTagger()
pos_tagger.loader()
sentences = 'দুশ্চিন্তার কোন কারণই নাই'
print(pos_tagger.tagger(sentences))