用python自然语言工具阅读孟加拉语

2024-04-25 05:21:08 发布

您现在位置：Python中文网/ 问答频道 /正文

6672

网友

男 | 程序猿一只，喜欢编程写python代码。

我想阅读NLTK分类的孟加拉语文本。我的孟加拉语文本编辑器快照：

文本编辑器中的sublime文件：

从快照中可以看出问题所在。问题是Unicode组合问题（虚线环是一个完全免费的东西）。下面是阅读文本的代码段：

>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')

输出为：

输出应该是“একবার”，而不是“একব”“র”。能做什么？？提前谢谢。在

Tags： path from 文本 import 分类快照 reader word

1条回答

网友

1楼 · 发布于 2024-04-25 05:21:08

您需要为Bengali characters提供Unicode范围。在

使用

word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")

撇号可以保留在字符类中。在

用python自然语言工具阅读孟加拉语

相关问题更多 >

编程相关推荐

热门问题

热门文章

用python自然语言工具阅读孟加拉语

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >