2024-05-13 22:33:11 发布
网友
我一直在与NLTK合作进行一项研究,以标记阿拉伯语文本并对其进行分析。问题是当我执行以下代码时:
bsm = 'بسم الله الرحمن الريحم' wordsBsm = nltk.tokenize.wordpunct_tokenize(anas) print " ".join(wordsBsm)
我明白我们的意思:
我不知道怎么解决这个问题!在
此外,如果您正在从文件中读取阿拉伯语文本,可以执行以下操作:
unicode( open('arabic.txt', 'w').read(), 'utf-8')
或者,根据文件的编码:
如果您使用的是Python 2.x,那么正如bobince所说,这应该是可行的:
bsm = u'بسم الله الرحمن الريحم'
如果您使用的是python3.x,那么它应该可以工作而不必在那里加上“u”。查看Python 2's Unicode HOWTO了解更多详细信息。在
此外,如果您正在从文件中读取阿拉伯语文本,可以执行以下操作:
或者,根据文件的编码:
^{pr2}$如果您使用的是Python 2.x,那么正如bobince所说,这应该是可行的:
如果您使用的是python3.x,那么它应该可以工作而不必在那里加上“u”。查看Python 2's Unicode HOWTO了解更多详细信息。在
相关问题 更多 >
编程相关推荐