擅长:python、mysql、java
<p>对我来说,下面的代码在python 3.X下适用:</p>
<pre><code>import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
doc_a = "ذهب محمد الى المدرسه على دراجته. هذا اول يوم له في المدرسة"
doc_a = doc_a.decode('utf-8')
sw = stopwords.words('arabic')
tokens = nltk.word_tokenize(doc_a)
stopped_tokens = [i for i in tokens if not i in sw]
for item in stopped_tokens:
print(item)
</code></pre>
<p>这行代码为您提供正确的停止字:<code>sw = stopwords.words('arabic')</code>。在</p>