2024-05-16 20:09:49 发布
网友
如何让NLTK用特定的语言处理文本?
偶尔,我会编写一个专门的NLP例程,在非英语(但仍然是印欧语)文本域上进行词性标记、标记等。
这个问题似乎只针对不同的语料库,而不是代码/设置的更改: POS tagging in German
或者,python有专门的希伯来语/西班牙语/波兰语NLP模块吗?
我不确定你指的是代码/设置的变化。NLTK主要依赖于机器学习,而“设置”通常是从训练数据中提取出来的。
当涉及到POS标记时,结果和标记将取决于您使用/训练的标记器。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因是缺乏公开提供的金本位材料。有很多工具可以做到这一点,但这不是针对python(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)的。
nltk.tokenize.punkt.punkt sentence tokenizer标记器将根据多语言句子边界对句子进行标记,本文(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485)中可以找到这些边界的详细信息。
我不确定你指的是代码/设置的变化。NLTK主要依赖于机器学习,而“设置”通常是从训练数据中提取出来的。
当涉及到POS标记时,结果和标记将取决于您使用/训练的标记器。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因是缺乏公开提供的金本位材料。有很多工具可以做到这一点,但这不是针对python(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)的。
nltk.tokenize.punkt.punkt sentence tokenizer标记器将根据多语言句子边界对句子进行标记,本文(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485)中可以找到这些边界的详细信息。
相关问题 更多 >
编程相关推荐