用NLTK训练Viterbi树解析器实现postaged inpu

2024-06-16 14:07:17 发布

您现在位置:Python中文网/ 问答频道 /正文

抱歉,如果我的问题是基本的,但我是相当新的NLP和仍在试图掌握一些概念。在

我想使用NLTK库中Viterbi算法的实现来训练一个使用UPenn树库的树解析器。但是,我希望我的解析器将已经有POS标记的句子作为输入。换句话说,我希望它只识别浅层的非终端产品。在

对于已经培训过的Stanford解析器,使用NLTK包装器,只需使用有用的tagged_parse模块即可实现:

from nltk.parser import stanford

stanford_parser = stanford.StanfordParser()
parsed_sentence = stanford_parser.tagged_parse(tagged_sentence)

其中tagged_sentence是一个元组列表,包含标记化的句子和相应的POS标记。例如:

^{pr2}$

我的问题是:如何在NLTK-Viterbi解析器中实现tagged_parse的等价物?

注意:为了训练Viterbi解析器,我遵循Section 3 of these handout solutions。对于Python培训资源的其他参考资料也将不胜感激。在


Tags: 标记pos算法parser解析器概念nlpparse