当用python标记阿拉伯语文本时,我得到了奇怪的结果?

2024-05-13 22:33:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在与NLTK合作进行一项研究,以标记阿拉伯语文本并对其进行分析。问题是当我执行以下代码时:

bsm = 'بسم الله الرحمن الريحم'
wordsBsm = nltk.tokenize.wordpunct_tokenize(anas)
print " ".join(wordsBsm)

我明白我们的意思:

^{pr2}$

我不知道怎么解决这个问题!在


Tags: 代码标记文本printjointokenizenltkbsm
2条回答

此外,如果您正在从文件中读取阿拉伯语文本,可以执行以下操作:

unicode( open('arabic.txt', 'w').read(), 'utf-8')

或者,根据文件的编码:

^{pr2}$

如果您使用的是Python 2.x,那么正如bobince所说,这应该是可行的:

bsm = u'بسم الله الرحمن الريحم'

如果您使用的是python3.x,那么它应该可以工作而不必在那里加上“u”。查看Python 2's Unicode HOWTO了解更多详细信息。在

相关问题 更多 >