我想阅读NLTK分类的孟加拉语文本。我的孟加拉语文本编辑器快照:
文本编辑器中的sublime文件:
从快照中可以看出问题所在。问题是Unicode组合问题(虚线环是一个完全免费的东西)。下面是阅读文本的代码段:
>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')
输出为:
输出应该是“একবার”,而不是“একব”“র”。能做什么??提前谢谢。在
您需要为Bengali characters提供Unicode范围。在
使用
撇号可以保留在字符类中。在
相关问题 更多 >
编程相关推荐