当用python标记阿拉伯语文本时，我得到了奇怪的结果？ - 问答 - Python中文网

当用python标记阿拉伯语文本时，我得到了奇怪的结果？

2024-05-13 22:33:11 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我一直在与NLTK合作进行一项研究，以标记阿拉伯语文本并对其进行分析。问题是当我执行以下代码时：

bsm = 'بسم الله الرحمن الريحم'
wordsBsm = nltk.tokenize.wordpunct_tokenize(anas)
print " ".join(wordsBsm)

我明白我们的意思：

^{pr2}$

我不知道怎么解决这个问题！在

Tags：代码标记文本 print join tokenize nltk bsm

2条回答

网友

1楼 · 编辑于 2024-05-13 22:33:11

此外，如果您正在从文件中读取阿拉伯语文本，可以执行以下操作：

unicode( open('arabic.txt', 'w').read(), 'utf-8')

或者，根据文件的编码：

^{pr2}$

网友

2楼 · 编辑于 2024-05-13 22:33:11

如果您使用的是Python 2.x，那么正如bobince所说，这应该是可行的：

bsm = u'بسم الله الرحمن الريحم'

如果您使用的是python3.x，那么它应该可以工作而不必在那里加上“u”。查看Python 2's Unicode HOWTO了解更多详细信息。在

相关问题更多 >

编程相关推荐

热门问题

热门文章