我用nltk
把句子分成单词。e、 g
nltk.word_tokenize("The code didn't work!")
-> ['The', 'code', 'did', "n't", 'work', '!']
标记化在拆分单词边界(即从单词中拆分标点符号)时效果很好,但有时会过度拆分,单词末尾的修饰符会被视为单独的部分。例如,didn't
被分成did
和n't
两部分,i've
被分成I
和've
。显然,这是因为这些词在nltk
使用的原始语料库中被分成两部分,并且在某些情况下可能是可取的。
有没有什么方法可以克服这种行为?可能与nltk's
MWETokenizer
如何将多个单词聚合到短语类似,但在本例中,仅将单词组件聚合到单词。
或者,是否有另一个不拆分单词部分的标记器?
这实际上是working as expected:
不同的} 不会将收缩分成两部分:
nltk
标记器处理英语的压缩不同。例如,我发现^{请查看更多信息和解决方法,网址为:
相关问题 更多 >
编程相关推荐