我正在用nltk标记文本,只是输入到wordpunct_标记器的句子。这将拆分收缩(例如“don't”到“don”+“”+“t”),但我想将它们作为一个单词保留。我正在改进我的方法以获得更精确的文本标记化,因此除了简单的标记化之外,我还需要深入研究nltk标记化模块。
我想这是很常见的,我希望从其他人那里得到反馈,他们可能之前已经处理过这个特殊的问题。
编辑:
是的,这是一个很普遍的问题,我知道
另外,作为nlp的新手,我需要担心宫缩吗?
编辑:
sexprotokenizer或TreeBankWordTokenizer似乎做了我现在正在寻找的事情。
Tags:
我以前在this project工作过NLTK。当我这样做时,我发现收缩是值得考虑的。
但是,我没有编写自定义标记器,我只是在POS标记之后处理它。
我想这不是你要找的答案,但我希望能有所帮助
因为压缩的数量非常少,一种方法是搜索并替换所有与之完全等价的压缩(例如:“不要”到“不要”),然后将更新后的句子输入wordpunct_标记器。
你使用哪种标记器取决于你下一步要做什么。正如inspectorG4dget所说,语音标签的某些部分处理分裂收缩,在这种情况下,分裂是一件好事。但也许这不是你想要的。要决定哪个标记器是最好的,请考虑下一步需要什么,然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记器的行为。
相关问题 更多 >
编程相关推荐