擅长:python、mysql、java
<p>您应该确保将unicode字符串传递给nltk标记器。我得到了字符串的以下相同的标记化,在我的一端有两个标记化器:</p>
<pre><code>import nltk
nltk.wordpunct_tokenize('müsli pöök rääk'.decode('utf8'))
# output : [u'm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
nltk.word_tokenize('müsli pöök rääk'.decode('utf8'))
# output: [u'm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
</code></pre>