擅长:python、mysql、java
<p>您可以尝试一个简单的正则表达式。如果您只需要单词,下面的内容就足够了;它将吞掉所有标点符号:</p>
<pre><code>>>> import re
>>> re.findall("\w+", "Veränderungen über einen Walzer.".decode("utf-8"), re.U)
[u'Ver\xe4nderungen', u'\xfcber', u'einen', u'Walzer']
</code></pre>
<p>请注意,<code>re.U</code>根据当前区域设置更改RE中<code>\w</code>的含义,因此请确保设置正确。我把它设置为<code>en_US.UTF-8</code>,这对于您的示例来说显然已经足够好了。</p>
<p>还要注意<code>"Veränderungen über einen Walzer".decode("utf-8")</code>和<code>u"Veränderungen über einen Walzer"</code>是不同的字符串。</p>