如何在python/nltk中打印分词后的阿拉伯文本?

0 投票
1 回答
1673 浏览
提问于 2025-04-17 18:12

我正在进行阿拉伯语的情感分析,使用的是Python和nltk库,还有dream pie这个工具。在我使用分词功能的时候,遇到了一个问题,想知道怎么才能显示这些词?

>>> import nltk
>>> sentence = "مصادمات عنيفه في"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a']

1 个回答

1

通过打印标记,你实际上是在打印一个列表,而\x...是字节码的表示方式。如果你想打印出阿拉伯数字的形式,只需循环遍历这个列表,然后一个一个地打印出标记。

>>> import nltk
>>> sentence = "مصادمات عنيفه في"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a']
>>> for i in tokens:
...     print i
... 
مصادمات
عنيفه
في

撰写回答