Python nltk无法标记阿拉伯语文本

# -*- coding: utf-8 -*- import nltk from nltk.tokenize import word_tokenize import stop_words from stop_words import get_stop_words doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة" sw = get_stop_words('ar') tokens = nltk.word_tokenize(doc_a) stopped_tokens = [i for i in tokens if not i in sw] print(stopped_tokens)

2条回答

网友

1楼 · 编辑于 2024-05-14 13:07:23

对于我来说，以下代码在python 3.X下为我工作：

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة"
doc_a = doc_a.decode('utf-8')
sw = stopwords.words('arabic')
tokens = nltk.word_tokenize(doc_a)
stopped_tokens = [i for i in tokens if not i in sw]
for item in stopped_tokens:
    print(item)

这一行为您提供了正确的stopwords:sw = stopwords.words('arabic')

网友

2楼 · 编辑于 2024-05-14 13:07:23

因为我没有停止词列表，所以我无法处理该部分，但标记化部分似乎工作得很好：

import nltk
from nltk.tokenize import word_tokenize
doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة"
tokens = nltk.word_tokenize(doc_a)
print(tokens)

这是我收到的输出：

此外，还有来自各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各1577']

相关问题更多 >

编程相关推荐

热门问题

热门文章