如何对已经标记的文件使用StanfordNLP工具(POSTagger和Parser)?

2024-05-26 21:53:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个标记化文件,我想使用StanfordNLP用POS和依赖项解析标记对其进行注释。 我正在使用具有以下配置的Python脚本:

config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp = stanfordnlp.Pipeline(**config)

doc = nlp(text)

但是,我收到以下信息:

  • 缺少:{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件

是否可以使用Python脚本跳过标记化步骤

提前谢谢


Tags: path标记pos脚本ptconfigmodelnlp

热门问题