Python中文
首页
教程
问答
标签
搜索
登录
注册
用nltk从德语文本中提取单词
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正试图从德语文档中提取单词,当我使用nltk教程中描述的以下方法时,我无法获得具有特定语言特殊字符的单词。</p> <pre><code>ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*'); words = nltk.Text(ptcr.words(DocumentName)) </code></pre> <p>我该怎么做才能得到文档中的单词列表?</p> <p>用<code>nltk.tokenize.WordPunctTokenizer()</code>表示德语短语<code>Veränderungen über einen Walzer</code>的示例如下:</p> <pre><code>In [231]: nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderungen über einen Walzer") Out[231]: [u'Ver\xc3', u'\xa4', u'nderungen', u'\xc3\xbcber', u'einen', u'Walzer'] </code></pre> <p>在本例中,“ä”被视为分隔符,即使“ä”不是。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>看看<a href="http://text-processing.com/demo/tokenize/" rel="nofollow">http://text-processing.com/demo/tokenize/</a> 我不确定你的文本是否得到了正确的编码,因为演示中的WordPunctTokenizer可以很好地处理这些单词。PunktWordTokenizer也是。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何找到类似于How'matplotlib.pyplot.gcf()`works?
2 回答
如何找到类字段的定义?
6 回答
如何找到精灵在团队中的位置?
10 回答
如何找到素数,但有错误。我找不到你
4 回答
如何找到素数(Python)
10 回答
如何找到索引i右侧的不同值
9 回答
如何找到索引Numpy数组时将折叠哪些轴?
6 回答
如何找到索引中的值,在列表中增加值?
9 回答
如何找到纬度/经度/高度点之间的三维距离?
9 回答
如何找到线和numpy meshgrid生成的曲面之间的交点?
10 回答
如何找到线段上距任意点最近的点?
10 回答
如何找到组中所有可能的子组
9 回答
如何找到组内值之间的最小差异
6 回答
如何找到经过训练的朴素贝叶斯分类器用于决策的单词?
3 回答
如何找到给selenium webdriver对象的文件夹名?
9 回答
如何找到给出最佳分数的列车测试分割的最佳随机状态值?
4 回答
如何找到给定Python发行版提供的模块?
7 回答
如何找到给定subversion工作副本的根文件夹
3 回答
如何找到给定一维阵列中的所有峰值?
9 回答
如何找到给定列表中的字符串组合,这些字符串加起来就是某个字符串(没有外部库)
5 回答