nltk con不在Python中标记阿拉伯语文本

# -*- coding: utf-8 -*- import nltk from nltk.tokenize import word_tokenize import stop_words from stop_words import get_stop_words doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة" sw = get_stop_words('ar') tokens = nltk.word_tokenize(doc_a) stopped_tokens = [i for i in tokens if not i in sw] print(stopped_tokens)

2条回答

网友

1楼 · 编辑于 2024-05-13 23:22:11

对我来说，下面的代码在python 3.X下适用：

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة"
doc_a = doc_a.decode('utf-8')
sw = stopwords.words('arabic')
tokens = nltk.word_tokenize(doc_a)
stopped_tokens = [i for i in tokens if not i in sw]
for item in stopped_tokens:
    print(item)

这行代码为您提供正确的停止字：sw = stopwords.words('arabic')。在

网友

2楼 · 编辑于 2024-05-13 23:22:11

由于我没有停止词列表，所以我无法处理该部分，但标记化部分似乎运行良好：

import nltk
from nltk.tokenize import word_tokenize
doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة"
tokens = nltk.word_tokenize(doc_a)
print(tokens)

这是我收到的输出：

‘‘两个’的‘’，‘‘两个’，‘‘’，‘‘’，‘‘‘’‘‘’‘‘‘’‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘له'，'في'，'

相关问题更多 >

编程相关推荐

热门问题

热门文章